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我 们 知道 ,所 谓 参 数 估计 , 它 是 数理 统计 中 的 一 个 名 词 , 其 含义 是 根据 含有 误差 的 观测 
向 量 , 依 一 定 的 数学 模型 和 准则 求解 未 知 参 数 .实际 上 在 测量 工作 中 这 就 是 平 差 问题 。 通 常 
无 论 是 在 数理 统计 , 还 是 测量 平 差 中 , 依据 线性 数学 模型 的 参数 估计 理论 已 是 非常 成 熟 而 系 
统 的 理论 ,是 其 主要 研究 和 应 用 的 对 象 .可 是 一 般 情 况 下 , 包括 我 们 测量 工作 , 非 线性 数学 模 
型 的 出 现 要 比 线性 模型 频繁 得 多 , 对 此 ,传统 的 方法 是 将 数学 模型 进行 线性 化 近似 , 即将 非 
线性 问题 转化 成 线性 问题 来 处 理 .在 过 去 测量 精度 不 高 的 情况 下 , 可 以 忽略 由 此 线性 化 近似 
而 引起 的 数学 模型 的 误差 . 可 是 这 种 线性 化 近似 已 不 能 满足 现代 高 精度 测量 工作 的 要 求 , v 
完全 可 能 导致 参数 估计 结果 的 精度 扭曲 .为 此 本 书 作 者 于 1994 一 2001 年 期 间 在 国家 自然 科 
学 基金 项 目 “ 非 线 性 随机 模型 估计 理论 并 用 于 全 球 定位 系统 "等 项 目的 资助 下 ,深入 系统 地 
研究 了 非 线 性 模型 的 参数 估计 理论 及 其 在 测量 数据 处 理 中 的 应 用 , 取得 了 一 系列 高 水 平 的 
成 果 . 本 书 就 是 在 这 些 研究 成 果 的 基础 上 , 通过 整理 扩充 而 成 的 .其 主要 特点 , 一 是 直接 对 非 
线性 模型 进行 处 理 , 从 而 精确 地 揭示 了 非 线 性 模型 中 估计 量 的 统计 性 质 , 从 理论 上 解决 了 由 
于 非 线性 模型 的 线性 化 近似 所 引起 的 各 种 问题 ; 二 是 紧密 结合 测量 数据 处 理 实际 , 抓 住 非 线 
性 模型 参数 估计 的 算法 和 精度 评定 两 个 基本 问题 进行 深入 浅 出 的 论述 , 在 严谨 的 理论 分 析 
的 基础 上 给 出 了 便于 实际 应 用 的 公式 .所 以 本 书 既 有 和 较 高 的 理论 水 平 ,又 有 和 较 大 的 实用 价 
值 。 

本 书 作 者 王 新 洲 教授 从 事 测量 数据 处 理 理论 与 应 用 的 教学 与 科研 工作 十 余年 ,具有 较 
强 的 科研 能 力 和 和 较 高 的 业务 水 平 ,在 这 一 学 科 领 域 距 取得 了 一 些 高 水 平成 果 , 也 积累 了 和 较 丰 
窜 的 实践 经 验 , 同时 具有 很 强 的 写作 能 力 .本 书 不 仅 文字 流畅 .层次 分 明 , 而 且 论证 严 说、 避 


辑 性 强 .我 相信 这 会 是 一 本 深 受 读者 欢迎 的 好 书 ! 
£4 £ 


2002 年 5 月 5 日 





ШЇЇ 


前 


非 线性 模型 参数 估计 理论 是 国家 自然 科学 基金 委员 会 于 1994 年 在 自然 科学 学 科 发 展 
战略 调整 调查 报告 (大 地 测量 学 ) 一 书 中 提出 的 大 地 测量 学 学 科 发 展 面临 的 重大 基础 理论 问 
题 之 一 , 也 是 国际 大 地 测量 协会 大 地 测量 数学 与 物理 基础 “统计 学 "专题 研究 组 1991 一 1995 
年 的 重点 研究 内 容 之 一 . 因为 测量 上 大 量 的 数学 模型 都 是 非 线 性 模型 ,很 多 观测 方程 都 具有 
很 强 的 非 线 性 性 ,对 级 数 展 开 的 初 值 点 十 分 敏感 ,所 以 需要 研究 模型 空间 的 容许 曲率 问题 ， 
以 及 在 非 线性 函数 空间 的 平 差 理 论 和 可 普及 的 实用 方法 . 

对 于 大 地 测量 中 大 量 的 非 线性 模型 , 传统 的 方法 是 进行 线性 近似 , 即将 其 展开 为 泰勒 级 
数 , 取 至 一 次 项 , 而 略 去 二 次 以 上 各 项 .如 此 线性 近似 , 必然 会 引起 模型 误差 . 由 于 过 去 测量 
精度 不 高 ,线性 近似 所 引起 的 模型 误差 一 般 小 于 观测 误差 , 故 线性 近似 所 引起 的 模型 误差 可 
忽略 不 计 . 随 着 科学 技术 的 不 断 发展 , 现在 的 测量 精度 已 大 大 提高 ,致使 线性 近似 所 引起 的 
模型 误差 与 观测 误差 相当 , 甚至 还 会 大 于 观测 误差 .因此 , 用 近似 的 理论 、 模 型 .方法 去 处 理 
具有 很 高 精度 的 观测 结果 , 从 而 导致 精度 损失 , 显然 是 不 合理 的 .现代 科学 技术 要 求 估计 结 
果 的 精度 尽 可 能 提高 .这 样 ,传统 的 线性 近似 的 方法 就 不 能 满足 当今 科学 技术 的 要 求 . 另外 ， 
有 些 非 线性 模型 对 参数 的 近似 值 十 分 敏感 , 若 近 似 值 的 精度 较 差 , 线性 近似 时 就 会 产生 较 大 
的 模型 误差 .此 时 用 线性 模型 的 精度 评定 理论 去 评定 估计 结果 的 精度 , 会 得 到 一 些 虚假 的 优 
良 统计 性 质 , 人 为 地 拔高 了 估计 结果 的 精度 . 

数理 统计 中 对 非 线 性 参数 估计 的 研究 始 于 20 世纪 60 年 代 初 期 .但 在 开始 的 20 年 中 进 
展 并 不 快 . 直到 20 世纪 80 年 代 初 , 加 拿 大 统计 学 家 Bates 和 Wats 引进 曲率 度量 后 此 理论 
才 得 到 较 快 的 发 展 . 

本 书 的 内 容 主要 来 自我 们 的 研究 成 果 . 同 时 参考 了 国内 外 一 系列 资料 和 最 新 研究 成 果 . 
本 书 的 主要 内 容 包 括 :线性 模型 参数 估计 理论 的 回顾 ; 非 线性 模型 非 线 性 强度 的 度量 理论 ; 
非 线 性 最 小 二 乘 估计 的 各 种 算法 及 其 效率 比较 ; 非 线性 最 小 二 乘 估计 量 的 统计 性 质 及 精度 
评定 ; 非 线性 模型 的 其 他 估计 方法 等 .本 书 从 理论 上 解决 了 线性 近似 所 引起 的 问题 , 是 将 非 
线性 科学 引入 测绘 领域 的 一 个 开端 . 

本 书 附录 A 中 介绍 的 立体 阵 , 在 本 书 中 经 常用 到 , 建议 读者 事先 熟练 掌握 它 . 

由 于 作者 水 平 有 限 , 麻 误 之 处 在 所 难免 , 恳请 各 位 专家 和 读者 不 音 赐 教 ， 


作 者 
2002 年 2 月 22 日 于 武昌 
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参数 估计 三 还 


第 一 章 ”参数 估计 概述 


参数 估计 (Parameter Estimation) 是 一 种 基本 的 统计 推断 形式 , 也 是 数理 统计 学 的 一 个 
重要 分 支 中 (成 平 , КЖЕ, 1985), 更 是 测量 数据 处 理 (Surveying Data Processing) 理 论 的 
重要 组 成 部 分 . 由 于 迄今 为 止 , 参数 估计 的 一 系列 成 果 主 要 集中 在 线性 模型 (Line Model), 
而 且 线 性 模型 参数 估计 理论 是 非 线 性 模型 (Nonlinear Model) 参 数 估计 的 基础 , 它们 之 间 有 
很 多 联系 .所 以 ,本章 首先 简要 回顾 线性 模型 参数 估计 中 的 基本 理论 和 方法 . 


第 一 节 ”线性 模型 参数 估计 理论 的 回顾 


线性 模型 是 数理 统计 学 中 发 展 比较 早 的 分 支 之 一 . 关于 它 的 参数 估计 问题 , 可 以 追溯 到 
18 22970 00 (EREE, 1987). 1806 年 著名 数学 家 А. М. Legendre 在 (决定 彗星 轨道 新 方 
法 ) 中 从 代数 观点 提出 了 最 小 二 乘法 (Least Square). 而 早 在 1794 年 , 年 仅 17 岁 的 高 斯 
(C.F.Gauss) 就 提出 用 最 小 二 乘法 从 带 有 误差 的 观测 值 中 找 出 待定 量 的 最 优 值 .但 高 斯 只 
到 1809 年 才 在 《天体 运动 的 理论 ) 中 正式 发 表 他 的 方法 中 (武汉 测绘 科技 大 学 测量 平 差 教研 
室 ,1996) .后 来 , 马尔 可 夫 (A.A. Markov) F 1900 年 证 明了 最 小 二 乘 估计 的 方差 (Variance) 
最 小 的 性 质 . 形 成 了 著名 的 Gauss-Markov 定理 , Mi Е 了 最 小 二 乘法 在 线性 模型 参数 估 
计 中 的 地 位 . 

1944 年 ,R.C.Bose 引入 了 可 估 函 数 的 概念 ,加 之 广义 道 矩 阵 的 应 用 , 使 得 设计 矩阵 为 
列 降 秩 的 线性 模型 参数 估计 理论 表述 得 更 加 严密 而 简洁 181( 王 松 桂 , 1987).20 世纪 60 年 
代 中 期 开始 研究 观测 误差 的 方差 - 协 方差 矩 阵 为 奇异 矩阵 的 线性 模型 参数 估计 间 题 . 
Goldman 和 Zelen 率先 提出 了 用 满 秩 线 性 变换 把 估计 模型 化 为 方差 - 协 方差 矩阵 为 c27, Н 
有 线性 约束 的 情形 . БЖ C.R. Као 采用 推广 最 小 二 乘法 的 途径 , 提出 了 所 谓 的 “最 小 二 乘法 
统一 理论 ”. 该 统一 理论 既 适 合 于 设计 和 矩阵 列 满 秩 或 列 降 秩 , 又 适合 于 观测 误差 的 方差 - 协 方 
差 矩 阵 奇 异 的 情况 . 这 些 结果 构成 了 线性 模型 最 小 二 乘 估 计 理 论 的 基本 内 容 中 3)( 王 松 桂 ， 
1987). 


一 、 线 性 模型 参数 的 最 小 二 乘 估计 


设 线性 模型 为 
L= ВХ + А 
Е(4) = 0 (1-1-1) 
Уаг(А) = P Qu 
式 中 :L пхп 的 观测 向 量 ;B 为 x х 的 设计 和 矩阵 ;XX 为 : x 1 的 未 知 参 数 向 量 ;4 为 mx1 
的 观测 误差 向 量 ;o? 为 单位 权 方 差 因子 ; Ош 为 x xz 的 协 因数 矩阵 , H О; >0. 
1 





ЗЕ екин ш 

线性 模型 (1-1-1) 式 是 测量 平 差 (Surveying Adjustment) 中 最 常用 的 数学 模型 . 其 中 第 
一 式 通 常 称 为 观测 方程 (Observation Equation), 测量 平 差 基础 中 称 之 为 函数 模型 (Function 
Model) .而 将 (1-1-1) 式 中 的 第 二 、 第 三 式 称 之 为 随机 模型 中 (Stochastic Model) (武汉 测绘 科 
技 大 学 测量 平 差 教 研 室 , 1996). 

记 未 知 参 数 X 的 最 小 二 乘 估 计 为 文 Ls; 残 差 (Residual) 向 量 为 V. 用 文 Ls 和 V 代替 X 和 
Д, 则 观测 方程 变 为 | 





Ү=ВХ$-1, (1-1-2) 
测量 上 通常 称 (1-1-2) 式 为 误差 方程 (Error Equation). 
再 记 观 测 值 的 权 和 矩阵 为 
Р=Р'= Qi (1-1-3) 
线性 模型 (1-1-1) 式 中 未 知 参数 X 的 最 小 二 屁 估 计 , 就 是 寻求 X 的 一 个 估 值 , 使 
V'PV=(BXıs- LYP(BŠıs- 1.) = тіп (1-1-4) 
为 此 ,将 (1-1-4) 式 对 义 ,s 求 一 阶 导数 , 并 令 其 为 零 , 得 
у У'РВ =0 
Вр В'РУ=0 (1-1-5) 
将 (1-1-2) 式 代入 (1-1-5) 式 ,得 
В'РВХ ıs- ВРІ, = 0 (1-1-6) 


测量 平 差 中 称 (1-1-6) 式 为 法 方程 (Normal Equation). 
法 方程 在 最 小 二 乘 估计 中 起 着 非常 重要 的 作用 ， 
当 设计 矩阵 В 列 满 秩 时 , 由 法 方程 (1-1-6) 式 可 解 得 未 知 参 数 X 的 最 小 二 乘 解 为 
XiS=(BPB)-15L (1-1-7) 
当 设计 和 矩阵 B 列 降 秩 时 , 法 方程 (1-1-6) 的 系数 和 矩阵 BPB 也 降 秩 . 在 这 种 情况 下 , 法 
方程 (1-1-6) 式 的 惟一 解 为 
Xis=(BPB) 呈 PPL (1-1-8) 
测量 平 差 中 称 这 种 情况 为 秩 亏 自由 网 平 差 (Adjustment of Free-Network with Rank 
Deficiency). 


二 、 线 性 模型 参数 最 小 二 乘 估 计 的 统计 性 质 


1. 无 偏 性 
对 (1-1-7) 式 所 确定 的 最 小 二 乘 估 计 取 数学 期 望 , 得 

E(Xıs)=(B'PB) 'B'PE(L) (1-1-9) 
由 (1-1-1) 式 可 得 

E(L)= BX+E(A)= BX (1-1-10) 

将 (1-1-10) 式 代入 (1-1-9) 式 ,得 

E(X ıs)=(B'PB)`'B'PBX =X (1-1-11) 
(1-1-11)5ҖЖ=ВҢ%/ЛУ—3@ [#1 X,s 是 未 知 参数 X 的 无 偏 估计 . 


2 .方差 最 小 性 
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设 线性 模型 (1-1-1) 式 中 参数 X 的 最 优 线性 无 俩 估计 (BLUE ) 为 
Х = МЇ, (1-1-12) 
式 中 :;M 为 上 xz 的 待定 系数 矩阵 . 
对 (1-1-12) 式 取 数 学 期 望 , 得 
Е(Х) = ME(L) = MBX 
因为 文 = ML 为 最 优 线性 无 偏 估 计 , 所 以 有 


МВ = І (1-1-13) 
式 中 :7 Aex e 的 单位 阵 . 
由 (1-1-12) 式 应 用 协 因数 传播 律 , 得 
MQM’ = min (1-1-14) 
下 面 来 求 满足 条 件 (1-1-13) 式 , 又 使 (1-1-14) 式 成 立 的 矩阵 M . 为 此 , 组 成 函数 
| = MQM’ +2(МВ-1)К (1-1-15) 


(1-1-15) 式 对 M 求 偏 导数 , 并 令 其 为 零 , 得 
22 =20911М' +2BK =0 


Вр МО. + 天 了 =0 
于 是 有 
M = - K'B'Qu = - K'B'P (1-1-16) 
将 (1-1-16) 式 代 人 (1-1-13) 式 ,得 
-К'ВРВ = І 
所 以 有 
К = -(BPB) 1! (1-1-17) 
将 (1-1-17) 式 代入 (1-1-16) 式 得 最 优 线 性 无 偏 估计 的 系数 矩阵 为 
M=(BPB)-:BP (1-1-18) 
将 (1-1-18) 式 代入 (1-1-12) 式 ,得 线性 模型 中 未 知 参数 X 的 最 优 线性 无 偏 估计 为 
Х= (ВРВ) 'B'PL= Х|; (1-1-19) 


所 以 文 Ls 为 线性 模型 参数 的 最 优 线 性 无 偏 估 计 . 由 此 证 明 线 性 模型 最 小 二 乘 估计 Х|, 
具有 最 小 方差 . 


三 .单位 权 方 差 因子 o 的 惟一 非 负 最 优 二 次 无 偏 估 计 


线性 模型 (1-1-1) 式 中 单位 权 方 差 因 子 o° 由 下 式 估计 : 
2 УРУ 
п- 4 
AP:n 为 观测 值 的 个 数 ;: 为 必要 观测 的 个 数 . 
可 以 证 明 ,o? 是 单位 权 方差 因子 o? 的 惟一 最 小 方差 非 负 二 次 无 偏 估计 .下 面 仅 证 о? 
的 无 偏 性 , 至 于 о? 的 其 他 性 质 的 证 明 , 有 兴趣 的 读者 可 参阅 (线性 牛 型 的 理论 及 其 应 
用 ) O ( ЕМЕ, 1987). 
为 了 证 明 с^ 的 无 偏 性 , 我 们 先 证 明 一 个 定理 . 
定理 1-1-1 设 y 为 n x1 的 随机 向 量 ,E(y)= w,Var(y)= Рр, М 为 n хп 的 对 称 方 
3 


(1-1-20) 
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阵 , 则 
E(Y MY)=tr(MD)+y Mp (1-1-21) 
式 中 :tr(Z) 表 示 求 方 阵 Z 的 迹 . 
WRR: Е(Ү'МҮ) 
=Е[(у- 2) М(у- д) + а Myty Mp- и Мр) 
= Е[(у- «)М(у- р) 1+2Е(у Ма) – и Ми 
= Е{а( (у= н) М(у- н) + е Mp 
=Е{[М(у- р) (у-н) И + Ми 
=} МЕ[(у- и) (у- ш) + Ми 
=п(Мр) + р Ми 
定理 1-1-1 得 证 . 
下 面 再 来 证 明 с> 的 无 偏 性 . 
因为 由 (1-1-2) 式 ,顾及 (1-1-1) 式 ,有 
Е(У) = В(Х,5) - E(L) 
= ВХ - ВХ =0 (1-1-22) 
Var( У) = 02 (1 – В(В'РВ) В’) (1-1-23) 
于 是 , 由 定理 1-1-1, 顾 及 (1-1-3) 式 ,有 
Е(У'РВУ) = otr{P(Q1 – В(В'РВ)СЇВ”)} 
= о { «(РӘ ) - «(РВ(ВРВ)'В')] 
= о{и(1)-(1)] 


= с?(п - t) 
所 以 
El?) =ELZPV) „2 (1-1-24) 


not 
因为 o? 是 基于 X 的 最 小 二 乘 估计 文 Ls 导 出 的 ,所 以 有 文献 称 o? 为 o? 的 最 小 二 乘 估 
Ў. 
四 、 线 性 模型 最 小 二 乘 估计 的 序 贯 解法 


当 我 们 已 经 得 到 线性 模型 的 最 小 二 乘 估计 后 , 又 因 某 种 原因 增加 了 一 个 或 多 个 观测 值 
时 , 为 了 利用 以 前 的 估计 结果 , 不 再 额外 增加 估计 工作 量 , 就 可 以 采用 最 小 二 乘 估计 的 序 贯 
解法 .为 此 ,将 线性 模型 (1-1-1) 式 中 的 观测 向 量 LOARA, 记 为 L; -| 和 Le EMERE 
阵 分 别 记 为 Pi- M Pe 并 设 L, -1 与 1. 不 相关 . 则 误差 方程 (1-1-2) 式 可 写 为 
Vr- = В„.1Х15— Te-i 
Vi = В,Х 15 - І 
ЧН: пс, х1 的 观测 向 量 ;LL An х1 的 观测 向 量 ; Vi -1 为 nt -1X1 的 残 差 
向 量 ; У, An x1 的 残 差 向 量 ; B -10 пъ ХІ 的 设计 和 矩阵 , п>, HA тК(Вь 1) = г 
( 注 :rk(B) 表 示 和 矩阵 В 的 秩 ), B В, -1 列 满 秩 ; В, X n X1 的 设计 和 矩阵 .与 (1-1-25) 式 相应 


(1-1-25) 
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Emesa 


P- 0) 
KERA Р-= | |. 
0 Р, 
单独 用 (1-1-25) 式 中 的 第 一 式 估计 文 Ls, 得 
人 SSL=( BiP Bt DB IPT-i (1-1-26) 


而 用 (1-1-25) 式 整体 估计 Xis, 得 
Kis= (Ву-1Р,-1В„-, + ВРьВь) (Вк Pei + ВЕРЫ) 
= Хї$! + (Вұ Р, -1Вь-1 + ВЕР,Вь) ВЕР, (Ls - BrXis!) (1-1-27) 


令 
Qx, = (Ву,-1Р„-0В,-,) 7! 
А , А (1-1-28) 
Ох = (Qr, + В;Р,В,) 
则 (1-1-27) 式 可 写 为 
Хуѕ= Kis! + ӨхВұР, (1, ~ BeXts!) 
= Жї! + J (La 一 ВХА!) (1-1-29) 
AF; J = QBP: (1-1-30) 
由 (1-1-28) 式 的 第 二 式 可 得 
Qg? =95'- BPB: (1-1-31) 
将 (1-1-31) 式 两 边 左 乘 Qg, 得 
QxQx =1- ЈВ, (1-1-32) 
01-11-32) ШБ Ор ,得 
ө; = Ох 7 ЈВьӘҳ (1-1-33) 
由 (1-1-28) 式 的 第 二 式 , 应 用 矩阵 反 演 公式 , 可 得 
Qr = Qg, - Qg В:(РЕ'+ BQe BE) Вх, (1-1-34) 
比较 (1-1-33) 式 与 (1-1-34) 式 ,得 
J = ӘҳВ;Р, = Qy, ,Br (Pe + BtQx ‚В! (1-1-35) 
将 (1-1-35$) 式 代 人 (1-1-29) 式 ,得 最 小 二 乘 序 贯 解 的 递 推 公式 为 
Kis= Kis' + Qg BCPEL+ Вх В) La- ВАХАБ!) (1-1-36) 


当 пь=1 8, (РЕ! + BiQx BOM Li- В.Х 都 是 一 个 数 . 因此 在 这 种 情况 下 , 最 小 
二 乘 序 贯 解 计算 非常 简单 , 所 以 总 是 假定 n = 1, 逐次 递 推 , 直到 求 出 整体 估计 时 的 最 后 结 
果 中 (武汉 测绘 科技 大 学 测量 平 差 教 研 室 , 1996) . 最 小 二 乘 序 贯 解法 可 应 用 于 测量 控制 网 
平 差 后 又 因 某 种 原因 增加 观测 值 的 情况 . 


五 . 带 有 线性 约束 的 线性 模型 参数 估计 


以 上 讨论 的 线性 模型 参数 估计 , 都 是 假定 未 知 参数 之 间 是 相互 独立 的 , 故 对 未 知 参 数 

X 没有 附加 任何 约束 条 件 , 它 是 自由 参数 .但 在 实际 工作 中 , 往往 在 未 知 参数 X 之 间 并 非 相 

互 独立 , 而 是 存在 线性 关系 (当然 也 可 能 是 存在 非 线性 关系 , 在 此 仅 讨 论 线性 关系 ). 此 时 , R 
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上 到 参数 估计 理论 与 应 用 
性 模型 (1-1-1) 式 就 变 为 





= ВХ+А 
СХ + Со=0 
Е(4) =0 
Var( A) = 029,1 
НУХ, Ед 和 X 可 得 
у= BX -了 
CXis+Co=0 
求 (1-1-38) 式 的 最 小 二 乘 解 , 就 是 在 满足 约束 条 件 СХ + Co= 0 的 情况 下 , 求 УРУ 
的 极 小 值 .为 此 , 按 求 条 件 极 值 的 方法 组 成 函数 
2p=VPV=2K (CCXIS+ Co) (1-1-39) 
将 上 式 对 kR R, 并 令 其 为 零 , 得 
2L _ 
дХ\& 


(1-1-37) 


(1-1-38) 


ш ду А 
2УР эў +2K C=0 
由 此 得 
В'РУ + СК =0 (1-1-40) 
将 (1-1-40) 式 与 (1-1-38) 式 联 立 求解 , 消去 V 后 ,得 
В'РВХ І + СК ~ ВРІ. = 0 


А (1-1-41) 
СХ + Co=0 
将 (1-1-41) 式 的 第 一 式 左 乘 С(В'РВ) E, Э 26,19 
C(B'PB) СК - (С(В'РВ) ‘ВРІ + Су) = 0 
解 得 
K=(C(BPB) CD) HKCCBPB) ‘ВРІ + Су) (1-1-42) 


将 (1-1-42) 式 代入 (1-1-41) 式 的 第 一 式 , 得 参数 X 的 最 小 二 乘 估计 为 
Х\$=(В'РВ)!11-С'(С(В'РВ)-!С)С!С(В'РВ)С!}В7Р1, 
-(BPB)-IC (CCBPB) IC -LICo (1-1-43) 


六 、 线 性 模型 参数 最 小 二 乘 估计 的 统一 理论 


在 线性 模型 (1-1-1) 式 中 , 若 Qu 为 已 知 的 奇异 方 阵 , 即 | Q | =0, 则 称 之 为 奇异 线性 
模型 , 即 


L=BX+A,E(A)=0,Var(A)=o’Q1, 01:1 =0 (1-1-44) 
由 前 述 知 , 线性 模型 (1-1-1) 式 的 最 小 二 乘 估计 就 是 寻求 使 
УРУ= У-У = піп (1-1-45) 


的 未 知 参数 的 估 值 .但 在 奇异 线性 模型 (1-1-44) 中 , Qu ЕЛЯ Ог ТЕ. 这 就 使 前 述 

的 一 般 最 小 二 乘 理论 不 能 应 用 . 此 时 , 人 们 自然 地 会 想到 用 О, ЮГ Яй Ог, RRE Qrr 的 

MAÉ Q. RERE RE УО ГУ = min 的 问题 .但 由 于 Ог Ж, ОПУ 就 不 惟 

一 , 即 极 小 值 不 惟一 . 为 了 解决 这 个 问题 , 印度 统计 学 家 C. R. Као 提出 了 一 种 有 效 方法 , 从 

而 建立 了 线性 模型 参数 最 小 二 乘 估计 的 统一 理论 . 这 一 统一 理论 的 基本 思想 是 , 寻求 一 个 矩 
6 
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Е M 代替 观测 值 的 协 因数 阵 Qir , 然后 解 优 化 问题 : 
УМУ = тіп (1-1-46) 
在 求解 优化 问题 (1-1- 46) 式 之 前 , 人 们 自然 会 问 , М ЖЕТЕ? 若 MERRE, 
它 的 形式 是 怎样 的 ? Rao CERO (WKAR, EHH, 1987) 可 以 取 M = О, + BGB ,其 中 G 
为 对 称 矩 阵 , 且 满 足 rk(G)=rk(Qu | B). Z M 适 于 Qi 之 0 的 情况 . 当 Qu >0 时 , Ж 
G=0. 当 |Qrl=0 时 , С 的 一 个 简单 的 选择 是 G = А, k >0. %4 M= Qu + BGB, G 为 对 
ЖЕРЕ, H rk(G)=rk(Qu | B)Et, VMT VBM-B 和 BM- EL 都 与 M- 的 选择 无 关 人 3 
(ЕВН КЕ, 王 松 桂 , 1987) .于 是 求解 优化 问题 (1-1-46) 式 , 得 


Xisg= (ВМВ) BM L (1-1-47) 
七 、 线 性 模型 参数 的 稳健 估计 


线性 模型 最 小 二 乘 估计 是 线性 最 优 无 偏 估计 , 这 一 结论 是 在 假设 E(A)=0,Var(4) = 
czQir 下 得 到 的 .但 在 实际 中 , 由 于 观测 向 量 LL 中 往往 不 可 避免 地 存在 粗 差 (Gross Error), 
这 时 , 线性 模型 中 的 假设 就 得 不 到 满足 . 当 观 测 值 不 满足 线性 模型 的 假设 条 件 , 即 观测 值 遭 
到 粗 差 污染 时 , 最 小 二 乘 估计 具有 明显 的 负面 影响 , 即 最 小 二 乘 估 计 不 具有 抵抗 粗 差 干扰 的 
特性 , 单个 观测 值 的 偏差 也 可 能 导致 最 小 二 乘 估计 面目 全 非 5 ( 杨 元 喜 , 1993). 为 此 , ЛІП 
就 试图 寻求 一 类 参数 估计 方法 , 使 其 具有 下 述 特点 : 

(1) 在 假定 的 观测 分 布 模型 下 , 估 值 应 是 最 优 或 接近 最 优 的 ; 

(2) 假设 的 分 布 模型 与 实际 的 分 布 模型 有 较 小 差异 时 , 估 值 受 粗 差 的 影响 较 小 ; 

(3) 当 假设 分 布 模型 与 实际 分 布 模型 有 较 大 偏差 时 , 估 值 不 受 破坏 性 的 影响 中 中 1( 罗 永 
Ж, 王 海 云 , 1987; 周 江 文 , 黄 幼 才 等 , 1997). 

前 两 个 特点 是 要 求 稳健 估计 在 假定 模型 正确 或 假定 模型 略 有 偏差 时 , 对 估计 结果 影响 
较 小 . 这 就 只 需要 模型 近似 正确 .这 两 个 特点 的 代价 是 在 模型 正确 时 , 估计 结果 并 非 最 优 , 只 
是 接近 最 优 .第 三 个 特点 保证 了 在 相当 坏 的 情况 下 , 估计 结果 也 不 会 变 得 太 坏 . 在 线性 模型 
参数 估计 中 , 具有 如 上 特点 的 估计 称 为 线性 模型 参数 的 稳健 估计 , 简称 稳健 估计 (Robust 
Estimation). 

稳健 估计 是 一 种 能 抵抗 粗 差 干扰 的 估计 . 其 实质 就 是 牺牲 最 小 二 乘 估计 的 最 优 性 , 达到 抵 
抗 粗 差 污染 的 目的 .下 面 扼要 介绍 稳健 估计 .为 推导 公式 方便 , 将 误差 方程 (1-1-2) 式 改写 为 


б, (Li 

Д ba Д La 
V=BXę- L= . Хр . (1-1-48) 

b, La 


式 中 ,6b; 为 设计 矩阵 B 的 第 i T: Ar 表示 未 知 参数 X 的 稳健 估计 . 
设 第 i 个 观测 值 的 权 为 p;, 则 按 М 估计 原理 , 未 知 参 数 X 的 稳健 估计 就 是 求解 下 列 优 
化 问题 : 


У! piplvi) = У) jp(OXR 一 L;) = тіп (1-1-49) 
iat i=l 
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Feren Eire eii 


КҖ Xk 求 导数 , 并 令 其 为 零 .同时 记 olv) = e, 则 有 


> 六 p(u)p = 0 (1-1-50) 
гп 
令 CQ) w,, B= PW, (1-1-51) 


式 中 , W, 称 为 权 因子 , 互 称 为 等 价 权 . 
于 是 (1.1.50) 式 可 写 为 


ВРУ =0 (1-1-52) 
将 (1-1-48) 式 代入 (1-1-52) 式 ,得 
В'РВХь- BPL=0 (1-1-53) 
由 此 可 得 
Хр= (ВРВ) 'BPL (1-1-54) 


由 于 等 价 权 P 的 引入 ,使 得 (1-1-54) 式 既 能 抵抗 粗 差 的 污染 , 又 保留 了 最 小 二 乘 估计 
的 形式 . ERD ЖИД ДА, 计算 方便 的 优点 得 到 充分 体现 . АТО А ЖО) 称 
(1-1-54) 式 为 抗 差 最 小 二 乘 估 计 . 

由 (1-1-51) 式 可 以 看 出 , RAF W ERZ u 的 非 线性 函数 .为 了 使 等 价 权 更 切合 实 
Ёк, 需要 通过 迭代 计算 , 以 改善 权 因 子 . 


八 .线性 模型 参数 的 信息 扩散 估计 


”由 前 述 知 , 当 观 测 值 服从 正 态 分 布 假设 成 立时 , 线性 模型 参数 的 最 小 二 乘 估计 是 最 优 线 
性 无 偏 估计 .但 当 观 测 值 遭 到 粗 差 污染 时 , 最 小 二 乘 估 计 具 有 了 明显 的 负面 影响 . 单个 粗 差 者 
可 使 最 小 二 乘 估计 面目 全 非 . 为 了 解决 这 个 问题 , 数理 统计 学 家 们 提出 了 具有 抵抗 粗 差 能 力 
的 稳健 估计 . 稳健 估计 是 在 假设 观测 值 服 从 污染 分 布 的 前 提 下 , 通过 牺牲 最 优 性 来 达到 抵抗 
粗 差 的 目的 . 在 实际 的 参数 估计 过 程 中 , 人 们 一 般 不 是 选用 最 小 二 乘 估计 , 就 是 选用 稳健 估 
Ж. 由 于 不 知道 观测 值 究竟 服从 什么 分 布 , 所 以 不 论 选 用 哪 种 估计 , 都 要 担 很 大 的 风险 外 
( 王 新 洲 , 1999) . 例如 , 当 采 用 最 小 二 乘 估计 时 , 要 担 观 测 值 不 服从 正 态 分 布 , 估计 结果 受 粗 
差 污染 的 风险 ; 当 采 用 稳健 估计 时 , 要 担 观测 值 服 从 正 态 分 布 , 而 估计 结果 并 非 最 优 的 风险 . 
根据 担 此 风险 的 原因 知 , 如 果 对 任何 一 组 观测 值 , 在 参数 估计 之 前 , 就 能 估计 出 它 所 服从 的 
具体 分 布 ,然后 再 根据 此 分 布 进行 参数 估计 , 就 可 避免 上 述 风险 . 信息 扩散 估计 (Information 
Diffusion Estimation) 就 是 这 样 避免 上 述 风险 的 一 种 参数 估计 方法 “信息 扩散 估计 是 一 种 智 
能 估计 , 即 当 观测 值 中 不 含 粗 差 (错误 或 异常 值 ) 时 , 参数 估计 的 结果 与 最 小 二 乘 估计 一 样 ， 
是 最 优 无 偏 估 计 ; 当 观测 值 中 含有 粗 差 时 , 该 估计 不 仅 能 很 好 地 抵御 粗 差 的 影响 , 而 且 不 需 
要 和 迭代, 比 现 有 的 稳健 估计 方法 都 好 ”中 ( 黄 崇 福 ,2002). 

1. 信 息 扩散 原理 与 扩散 估计 

设 W= | хо, wr, w, 是 知识 样本 , L 是 基础 论 域 , 记 ш, 的 观测 值 为 1;. 再 设 x = 
pll- L) Ж?Ң wW 非 完备 时 ,存在 函数 (x), 使 i; 点 获得 的 量 值 为 1 的 信息 可 按 p(xz) 的 


量 值 扩散 到 1 上 去 . 且 扩 散 所 得 到 的 原始 信息 分 布 Q(1) = Dal) = У) ае 10) 6 
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ЕЕ екени 
更 好 地 反映 W 在 总 体 的 规律 .这 一 原理 称 为 信息 扩散 原理 4 (黄岩 福 , ERN, 1995). 
根据 这 一 原理 对 母体 概率 密度 函数 的 估计 称 为 扩散 估计 . 扩散 估计 的 确切 定义 如 下 : 
定义 1-1-1 Rele) DELE- оо, co) 上 的 一 个 波 害 尔 可 测 函 数 , Д, >0 为 常数 , 则 
称 








1 (1-1-55) 


А, 
为 母体 概率 密度 函数 /(4) 的 一 个 扩散 估计 0 ( 黄 崇 福 , ЕА, 1995). RP: ulr) RAE 
散 函 数 ; Д, RAAR. 
х= 一 一 (1-1-56) 
2. 扩 散 函 数 w(z) 的 确定 . 
由 (1-1-55) 式 知 , 扩散 估计 的 关键 是 扩散 函数 w(z) 的 县 体形 式 . 对 于 不 同 的 w(z), 可 


得 到 不 同 的 扩散 估计 结果 , 在 (模糊 信息 优化 处 理 技术 及 其 应 用 99 ( 黄 崇 福 , EKM, 1995) 
中 根据 分 子 扩散 理论 , 导出 的 正 态 扩散 函数 为 








1 л? 
ula) = exp -23 (1-1-57) 


将 (1-1-57) 式 代 人 (1-1-5$) 式 ,顾及 (1-1-56) 式 ,得 母体 概率 密度 函数 f(1) 的 正 态 扩 
散 估计 为 


у= 引 кее» Сал |- 5 ор (1-1-58) 








n j=l |o 20? n j=l 
式 中 : h= oA, (1-1-59) 
(1-1-59) 式 所 确定 的 h 称 为 标准 正 态 扩散 的 窗 宽 . 
3. 经 验 窗 宽 


由 (1-1- 58) 式 知 , 母体 概率 密度 函数 AL) 的 正 态 扩散 估计 f(1) 不 仅 与 观测 值 4 、 子 样 
容量 (观测 值 的 个 数 )x AX, 而 县 还 与 标准 正 态 扩散 的 窗 宽 A 有 关 . 当 观 测 完 成 后 , 观测 值 
L 和 观测 值 的 个 数 » 部 是 已 知 量 , 此 时 只 有 窗 宽 h 未 知 .因此 ,要 根据 观测 值 /; 来 估计 母体 
概率 密度 函数 РОЛ), 首先 要 确定 标准 正 态 扩散 的 窗 宽 4. 在 《模糊 信息 优化 处 理 技术 及 其 应 
AOO (RRM, 王家 易 , 1995) 中 根据 择 近 原 则 导出 的 窗 宽 А 的 经 验 公式 为 

һ=%0-а) (1-1-60) 


n-l 
式 中 ,a = піп(/;), b = тах(/;), i=1,2,.…,n;a En Ж, а 与 的 关系 (中 ( 王 新 洲 ， 
1999) 列 于 表 1-1-1. 


表 1-1-1 











7 
1.445461208 
12 
1.420269570 


6 
1.336252561 
11 
1.420835443 





4 
1.273982782 
9 
1.422962345 





5 
1.698643675 
10 
1.416278786 









0.849321800 
































1.395189816 








rtm Poa ыл ш 








16 





13 





14 











1.420692226 1.420693101 









1.420698795 





1.420669671 











21 22 






18 














1.420693101 1.420693101 





1.420693101 1.420693101 





1.420693101 


ШЖ 1-1-1 知 , 4 „2217 Н, а==1. 420693101. 

4. 最 优 窗 宽 

经 验 窗 宽 具有 计算 简单 的 优点 .但 研究 表明 , 经 验 窗 宽 不 适用 于 所 有 分 布 40( 游 扬 声 ， 
2001) ,而且 采 用 不 同 的 窗 宽 h, 母体 概率 密度 函数 f(1/) 的 估计 精度 是 不 同 的 . 因此 , 需要 在 
某 种 最 优 准 则 下 求 得 最 优 窗 宽 .我 们 在 母体 概率 密度 函数 估计 的 均 方 误差 最 小 这 一 准则 下 
导出 了 最 优 徐 宽 的 迭代 公式 (2( 王 新 洲 , 游 扬 声 ,2001 ) : 


a 
п 1 





Һ0= 6 – 


а СС) Сп)? 
O Ransa PURDE) + EU he)? 


LT Sptr! 





теа 
(1-1-61) 


k+l 
h = 





+ 1 S (1-11)? 

7 (0 V2renht exp 2(һ*)? 
为 了 考察 最 优 窗 宽 的 效果 , 我 们 模拟 了 100 个 服从 标准 正 态 的 观测 值 , 分 别 采 用 经 验 窗 宽 
(1-1-60) 式 和 最 优 窗 宽 (1-1-61) 式 , 对 母体 概率 密度 函数 F(! ) 进 行 了 估计 ;同时 还 模拟 了 
40 个 服从 卡 方 (chi-squared) 分 布 的 观测 值 ， 分 别 采 用 经 验 窗 宽 (1-1-60) 式 和 最 优 窗帘 
(1-1-61) 式 , 对 母体 概率 密度 函数 /(/) 进 行 估计 .估计 结果 见 图 1-1-1 和 图 1-1-2 所 示 . 








图 1-1-1 粗 实 线 为 最 优 窗 宽 估计 结果 ; 细 实 线 图 1-1-2 粗 实 线 为 最 优 窗 宽 估计 结果 ; 细 实 线 
为 标准 正 态 分 布 曲线 ; 虚线 为 -- 般 窗 H chi-squared 分 布 曲线 ; 虚线 为 一 般 
宽 估 计 结 果 . 窗 宽 估计 结果 . 


由 图 1-1-1 和 图 1-1-2 可 以 看 出 ,采用 最 优 窗 宽 估计 母体 概率 密度 函数 , 其 精度 比 采 用 
10 ` 
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经 验 窗 宽 估 计 母 体 概率 密度 函数 要 高 得 多 , 并 且 其 曲线 能 很 好 地 逼近 理论 分 布 曲 线 . 
5. 单 参数 的 信息 扩散 估计 
单 参数 估计 就 是 对 于 模型 : 
а= р+Д;, i=1,2,.…, (1-1-62) 
根据 n CRAE, 来 估计 母体 的 数学 期 望 w . 六 参数 的 最 小 二 RIRE ЖА НИН. 其 基 
本 假设 是 观测 值 /; 来 自 正 态 母体 . 
单 参数 的 信息 扩散 估计 与 最 小 二 乘 估计 不 同 的 是 :不 是 先 假设 观测 值 的 母体 分 布 , 而 是 
在 参数 估计 之 前 先 根据 观测 向 量 ! = (4 Д5, 5, La), 应 用 (1-1-58) 式 估计 出 母体 概率 密度 
函数 РО), 然后 再 依据 母体 概率 密度 函数 的 估 值 F(L ) 来 估计 母体 的 数学 期 望 y. 王 新 洲 外 
(1999) 导 出 的 一 维 参 数 的 信息 扩散 估计 公式 为 


д = Уа (1-1-63) 
р, p = L (1-1-64) 
ууа) 


6. 多 参数 的 信息 扩散 估计 
由 (1-1-63) 式 定义 的 信息 扩散 估计 , 只 适用 于 简单 的 线性 模型 (1- 1-62) 式 . 其 原因 是 
应 用 (1-1-358) 式 估计 母体 概率 密度 函数 (1/) 时 , 要 求 ”个 观测 值 / 具有 相同 的 数学 期 望 . 
这 一 要 求 在 测量 数据 处 理 中 显然 难以 满足 . 因为 测量 数据 处 理 中 常用 的 线性 模型 是 (1-1-1) 
A, 而 (1-1-1) 式 中 的 观测 值 4/ 一 般 具 有 不 同 的 数学 期 望 w . 
为 了 将 单 参数 的 信息 扩散 估计 推广 到 一 般 的 线性 模型 (1- 1- 1) 式 中 去 ( 即 从 单 参 数 的 信 
息 扩 散 估计 推广 到 多 参数 的 信息 扩散 估计 ), 我 们 提出 用 标准 化 残 差 向 量 W 作为 扩散 向 
ОЗС, 王 新 洲 ,2001), 即 用 标准 化 残 差 W 的 概率 密度 函数 A(uw ) 去 代替 观测 值 / 
的 概率 密度 函数 AL) ,近似 地 估计 母体 概率 密度 函数 FL) .然后 根据 /(w) 来 确定 观测 值 
L 的 权 户 .有 了 观测 值 L 的 权 户 后 , 对 线性 模型 (1- 1-1) 式 应 用 最 小 二 乘 估 计 即 可 . 
多 参数 的 信息 扩散 估计 过 程 可 描述 为 : 
(1) 令 观测 向 量 的 权 为 单位 矩阵 , 对 线性 模型 (1- 1-1) 式 进行 最 小 二 乘 估计 , 并 计算 标准 
化 残 差 向 量 W. 
(2) 估 计 标 准 化 残 差 向 量 W A 由 (1-1-58) 式 得 
| КА, (че = w)? 
flw)= ИА = У, 1 exp| - 2А? | 
(3) 用 标准 化 残 差 向 量 W 的 概率 密度 函数 /(w) 代 替 观 测 值 / 的 概率 密度 函数 /(/)， 
并 根据 Ўсув. 1-64) 式 确定 观测 值 /; 的 权 户 : 
fU; ) Lw ) 











pr = = (1-1-65) 
э ) Ус 
(4) 取 观测 向 量 的 权 为 P = P(W) = бабри, …, 六 ) ,再 次 对 线性 模型 (1- 1-1) 式 
进行 最 小 二 乘 估计 , 即 得 未 知 参 数 X 的 信 а, 
Х =(В'Р(У/)В)С!В'Р(У/)1. (1-1-66) 
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有 和 到 参数 估计 理论 与 应 用 

7. 信息 扩散 估计 的 抗 差 性 

未 知 参数 х 的 信息 扩散 估计 (1-1-66) 式 , 虽然 实质 上 是 最 小 二 乘 估计 , {Н ЗЕБ ЖЛ 
二 乘 估计 和 稳健 估计 的 优点 .所 以 , 当 观 测 值 服从 正 态 分 布 时 , 信息 扩散 估计 和 最 小 二 乘 估 
计 一 样 , 是 未 知 参数 X 的 最 优 线性 无 偏 估计 . 当 观 测 值 含有 粗 差 , 不 服从 正 态 分 布 时 , 信息 
扩散 估计 具有 很 好 的 抵抗 粗 差 的 能 力 . 这 是 因为 在 确定 观测 向 量 的 权时 考虑 了 观测 值 的 分 
布 信息 , 即 按 (1-1-65) 式 定 权 的 结果 . 为 什么 按 (1-1-65) 式 定 权 就 具有 抗 差 性 呢 ? 这 是 因 
为 由 (1-1-58) 式 和 (1-1-65) 式 知 , 各 观测 值 的 权 可 写 为 


| 户 = с1 5 expl = c2( 4; — 4)°] (1-1-67) 
Н (1-1-67) RA, чі анж, (1 - 0) (195) 必然 较 大 因此 
Xel- сз; — GY] 必然 较 小 , 从 而 导致 户 较 小 , 这 样 就 抑制 了 粗 差 的 影响 , 使 之 具有 


抗 差 性 因此 , 当 观 测 值 含 有 粗 差 , 不 服从 正 态 分 布 时 , 信息 扩散 估计 优 于 最 小 二 乘 估 计 . 为 
了 验证 这 一 点 , 我 们 应 用 信息 扩散 估计 处 理 了 武汉 市 轨道 交通 一 号 线 一 期 工程 的 水 准 测量 
数据 40905( 王 新 洲 ,2000 或 Wang Xinzhou,2001) .处 理 列 于 表 1-1-2. 















































表 1-1-2 
无 粗 差 影响 有 粗 差 影响 

水 准 - 

ч 按 距离 定 权 按 分 布 定 权 按 距 离 定 权 按 分 布 定 权 
点 | — _ 

H; (m) о, (тт) Hi(m) gi(mm) Hi(m) о; (пт) Н; (т) 
-一 二 二 人 
(1) (2) (3) (4) (5) (6) (7) (8) 
Wul5 23. 6240 | 23.6240 23.6240 23.6240 
一 二 7 
Wul6 22.6430 22.6430 22.6430 22.6430 
. | | i 
H1 24.6573 +1.4 24.6537 +2.4 24.6577 | +3.7 24.6563 +2.1 
T T эи 
H2 24.6251 | +1.9 24.6223 | +2.5 24.6259 + 5.1 24.6245 +2.5 
H5 К 25.0883 +2.4 25.0871 +2.5 | 25.0900 +6.2 25.0894 2.7 
|. 十 一 | 一 十 一 一 一 
H6 | 25.6422 +2.4 25.6408 +2.6 25.6433 +6.3 25.6423 +2.8 
4 二 Ц — 
H4 24.1451 +2.4 24.1438 +2.8 24.1357 +6.3 24.1437 +3.7 












6 
-| 4— 
H8 | 24.0928 +2.5 24.0919 +2.6 | 24.0909 +6.5 24.0926 


十 


H9 26.1122 +2.4 26.1113 +2.6 26.1084 | *6.4 
| -一 -十 


1— 一 什 一 一 一 


GPS06 26.9144 +2.5 26.9136 +2.6 | 26.9120 +6.8 26.9142 





26.1119 





















H13 25.4050 +2.4 | 25.4041 +2.5 25.402 +6.4 25.4047 +2.9 
4 十 | 一 和 一 一 一 
25.0217 +2.9 


СР508 | 25.0220 +2.4 25.0214 +2.6 25.0190 +6.3 
23.4029 | +6.5 23.4051 


22.6153 





















1 
СР511 23.4055 +2.5 23.4047 +2.9 














H17 22.6157 +2.4 22.6150 22.6132 +6.2 
































СР512 24.2158 2.4 24.2141 





24.2166 











无 粗 差 影 响 有 粗 差 影响 

















ус 按 距离 定 权 | 按 分 布 定 权 | инвен | RANER 
T 一 
Н (т) с; (тт) | Н,(т) с; (тт) Н,(т) с; (тт) Н (т) о; (тт) 
(1) (2) (3) (4) (5) (6) (7) (8) (9) 
| © 


Г + 
СР515 22.0897 +2.4 22.0895 +2.4 22.0874 +6.2 22.0894 +2.8 











- : 
GPS17 21.2154 +2.2 21.2147 | +2.2 | 21.2132 +5.8 | 21.2150 +2.5 
GPS16 21.8294 土 2.2 21.8287 +2.2 21.8270 +5.8 21.8290 +2.6 
GPS19 24.7436 +2.2 24.7432 +2.1 | 24.7417 * 5.8 24.7434 +2.5 
у ЬН рле" БЕБИ 
GPS20 СЕ +1.9 25.1098 си 25.1082 +5.1 | 25.1098 | +2.2. 


GPS27 24.3399 +1.9 24.3398 +1.9 24.3380 +5.1 24.3398 +2.2 
а 




















GPS22 25.5464 +1.8 25.5468 25. sasa | +4.6 25.5467 | +2.1 
—| „|. 1 
СР524 25.0771 +1.3 25.0774 А 25.0764 +3.4 25.0774 +1. 
A 上 十 








GPS23 25.1108 +1.3 25.1110 
H31 23.6212 tos | 23.6219 +1. 





十 十- 


23.6232 +2.1 23.6216 tl. 
г -一 一 上 








7 
25.1088 +3.5 25.1110 +1.7 
4 
5 


СР525 23.5229 | 20.9 23.5234 | +1. 23.5182 +2.4 23.5232 +1. 





| аа T р 
GPS21 24.2363 +1.8 24.2364 + 24.2344 +4.8 24.2364 | +2.1 
小 | 





21.4285 +5.7 21.4302 +2.5 





T Г 
Н22 21.4305 +2.2 21.4300 + 
+ 

+ 


F Т 十 
СР514 21.2270 +2.4 21.2262 21.2246 +6.2 21.2266 +2.8 
+ 4 





24.2779 +6.4 24.2804 +3.0 





F 


H11 26.5364 +2.5 26.5360 26.5333 * 6.4 26.5364 *3.0 





























о а ооа Го 


1 
2 
2 
СР510 24.2806 | +2.5 24.2804 +2. 
2 
2 


H7 24.2187 +2.5 24.2176 24.2113 + 6.5 24.2178 +3.4 


由 表 1-1-2 知 , 当 无 粗 差 污染 时 , МЕЗ Ир БЕ ЖУ ПОР ЭЕ 5 Ж Б ЖЕН ЖЕ ЖИ ПУЗ ЗЕ А ЖООМ, 
表 1-1-2 的 第 2.3 列 和 第 4、5 列 ) 相 差 甚 微 . 当 我 们 在 观测 值 中 加 上 两 个 10mm 的 粗 差 时 , 按 
传统 的 平 差 方法 ( 即 按 距 离 定 权 的 最 小 二 乘 估 计 ) 的 平 差 结果 ( 见 表 1-1-2 的 第 6 列 和 第 7 
列 ) 受 到 粗 差 污染 . 由 第 7 列 可 以 看 出 ,有 粗 差 污染 时 各 点 的 高 程 中 误差 是 无 粗 差 污 染 时 的 
两 倍 以 上 .而 按 分 布 定 权 的 平 差 结果 ( 见 表 1-1-2 的 最 后 两 列 ) 仍 然 与 无 粗 差 污染 时 的 平 差 
结果 相同 . 这 表明 信息 扩散 估计 ( 即 按 分 布 定 权 的 平 差 ) 具 有 较 好 的 抗 差 性 . 同时 也 说 明 信 息 
扩散 估计 具有 合理 性 和 实用 性 . 

为 了 进一步 说 明 信 息 扩散 估计 的 抗 差 性 能 , 我 们 将 信息 扩散 估计 与 李 德 仁 法 .Huber 法 
等 稳健 估计 方法 进行 了 比较 . 结果 发 现 当 观测 值 中 仅 含 一 个 粗 差 时 , 信息 扩散 估计 与 其 他 抗 
差 估计 方法 一 样 , 能 很 好 地 抵抗 粗 差 . 当 观 测 值 中 含有 多 个 粗 差 时 , 信息 扩散 估计 明显 优 于 


其 他 方法 . 当 观 测 值 中 含有 方 (x 为 多 余 观测 数 ) 个 粗 差 时 , 李 德 仁 法 和 Huber 法 都 会 月 省 
而 信息 扩散 估计 的 结果 仍然 很 好 . 当 粗 差 个 数 大 于 二 时 ， 信息 扩散 估计 才 发 生 骨 演 . 
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九 、 线 性 模型 参数 的 有 偏 估计 


前 面 已 经 证 明 , 线性 模型 (1-1- 1) 式 的 最 小 二 乘 估计 Xs=(BPB)-:BPL 具有 最 小 方 
差 . 但 是 当 设计 和 矩阵 В 的 列 向 量 之 间 存 在 近似 的 线性 关系 时 , 法 方程 系数 矩阵 ВРВ 接近 
奇异 . 称 系数 矩阵 BPB 接近 奇异 的 法 方程 为 病态 方程 . 当 法 方程 病态 时 , 尽管 文 s 的 方差 
在 线性 无 偏 估计 类 中 最 小 , 但 其 数值 却 非常 之 大 . 即 文 ,的 精度 比较 差 . 其 表现 是 法 方程 的 
解 很 不 稳定 . 当 ВРІ. 中 有 微小 的 误差 时 , (ВРВ) HEN, 就 会 严重 地 放大 该 误差 ， 
Ж Xot X 相差 很 大 .为 了 在 法 方程 病态 时 改进 最 小 二 乘 估 计 , 许多 学 者 提出 了 一 系列 新 
的 估计 .其 中 很 重要 的 一 类 估计 就 是 有 偏 估计 (Biased Estimation). 有 偏 估计 是 牺牲 最 小 二 
乘 估计 的 无 偏 性 , 来 换取 比 最 小 二 乘 估计 更 小 的 均 方 误差 , 从 而 达到 改善 文 Ls 的 一 类 估计 . 
在 众多 的 有 偏 估计 中 , 影响 较 大 的 是 岭 估计 、 广 义 岭 估计 、 主 成 分 估计 和 Stein 压缩 估计 
等 趾 ( 王 松 桂 , 1987). 
1. 岭 估计 
岭 估 计 (Ridge Estimation) 是 Hoerl 和 Kennard 1970 年 提出 来 的 . 对 于 线性 模型 (1-1-1) 
Х(А) = (ВРВ + А) ВРІ. (1-1-68) 
式 中 :&A>0 为 任意 常数 , 称 为 岭 参 数 . 
岭 估计 具有 如 下 性 质 .; 
(iD 岭 估计 文 (4) 是 最 小 的 二 乘 估计 的 线性 组 合 , 由 (1-1-68) 式 知 
X(k)= (ВРВ + А1) 'ВРВ(В'РВ)'В'РІ. 
= (В'РВ + kI) 'В'РВХ, 5 
= Ху - А(В'РВ + АГ) !Х\$ (1-1-69) 
(и) ХОБ) X 的 有 偏 估计 , 由 (1- 1-69) 式 得 
Е[Х(А)1= E(X1s) – k(B'PB + А) Е(Х 5) 


=X-A(BPB+AT)-IX (1-1-70) 
(ii 存在 上 >0, 使 文 (A) 的 均 方 误差 小 于 久 ,s 的 均 方 误差 , 即 
МЅЕ[Х (А) |< МЅЕ(Х,5) (1-1-71) 


由 (1-1-68) 式 知 , Р [800 А 值 , (1-1-68) 式 给 出 不 同 的 估计 . 3А = 0 时 , (0) = 
(BPB)-:BPL=Xs. 即 上 =0 时 的 岭 估 计 就 是 最 小 二 乘 估计 . 当 设 计 和 矩阵 В 呈 病 态 时 ， 
B“PB 接 近 奇 异 ,但 ВРВ + kI 接近 奇异 的 程度 得 到 改善 .由 于 文 (&) 的 均 方 误差 小 于 Х st 
均 方 误差 , 所 以 , 在 B BASN, 岭 估计 改善 了 最 小 二 乘 估计 . 

2. 广 义 岭 估计 

广义 岭 估 计 (Generalized Ridge Estimation) 的 定义 为 

Х(А) = (ВРВ + ЕКЕ”) ‘ВРІ. (1-1-72) 
式 中 :R 为 正 交 阵 . К = diag(ki, А, >, k), Ж: 个 岭 参 数组 成 的 对 角 阵 . 显然 , 当 Al = 
Ба =, =k |, (1-1-72) RÆ A (1-1-68) 5. 
3.Stein 估计 
1955 年 Stein 证 明了 若 法 方程 病态 时 , щу 大 于 2 时 , ЛЖ [ДА ЖЖ УЕР, 
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即 能 找到 另 一 个 估计 在 均 方 误差 意义 下 一 致 优 于 最 小 二 乘 估 计 . 人 们 称 这 种 现象 为 Stein 
现象 . 
根据 Stein 现象 , Stein 在 1955 年 提出 了 通过 压缩 改进 最 小 二 乘 的 方法 . 人 们 称 Stein 提 
出 的 方法 为 Stein 估计 .Stein 估计 的 定义 为 : 
XF У=ВХ<-1,Ж 
Х5(С)=СХ 5 (1-1-73) 
为 线性 模型 参数 X 的 Stein 估计 , 其 中 SCS 称 为 压缩 系数 . 
Stein 估计 为 有 偏 估计 , Вр 
Е(Х5(С)) = СЕ(Х,5) = СХ (1-1-74) 
当 0<C<1 时 ,有 
MSE(Xs(C))<MSE(XLs) (1-1-75) 
4. 在 无 偏 估 计 类 中 改进 最 小 二 乘 估 计 的 方法 
有 偏 估计 实际 上 是 在 BPB 病态 时 , 牺 和 性 最 小 二 乘 估计 的 无 偏 性 来 对 最 小 二 乘 估计 进 
行 改进 .在 ВРВ 病态 时 有 偏 估计 虽然 能 改进 最 小 二 乘 估计 , 但 估计 结果 有 偏 . 能 否 有 办 法 
既 能 改进 最 小 二 乘 估 计 , 又 能 保证 估计 结果 无 偏 呢 ? 笔者 曾 提出 了 这 样 的 一 种 方法 46( 王 
新 洲 ,1995). 下 面 简要 介绍 这 种 方法 . 
(1) 约 束 条 件 
对 于 线性 模型 (1-1-1) 式 , 当 BPB 病态 时 , 最 小 二 乘 估计 广 ,s 很 不 可 靠 .为 了 改善 最 小 
二 乘 估 计 , 对 模型 (1-1-1) 式 附加 一 个 约束 条 件 : 


GX=0 (1-1-76) 
式 中 :G“ 为 1xt 的 约束 向 量 .附加 约束 条 件 (1-1-76) 后 ,模型 (1-1-1) 式 变 为 
L=BX+4 
GX=0 (1-1-77) 
E(A)=0 
Уаг(д) = 0201 
其 法 方程 为 
В'РВХ; + СК - В'РІ. =0 (1-1-78) 
С'Хс=0 


法 方程 (1-1-78) 的 解 为 
Хс= ©,(ВРІ, – СК) 


К=(С'9,6) 'С'Ө,ВРІ. (1-1-79) 
RP: Q, = (ВРВ + GG’)-! 
令 C=1- QG(G' QG) 1G- (1-1-80) 
则 (1-1-79) 式 可 写 为 
Хс= CQB PL (1-1-81) 


(2) 约 束 向 量 G 的 确定 
在 线性 模型 (1-1-1) 式 中 附加 约 东 条件 (1-1-76) 的 目的 , 是 为 了 既 改 善 法 方程 的 态 性 ， 
又 保证 估计 量 无 偏 . 法 方程 的 病态 程度 取决 于 В РВ 的 条 件数 . BPB 的 条 件数 由 下 式 定义 : 
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соп(В'РВ) = || В'РВ 1 (В'РВ) 7! || (1-1-82) 
4 0< соп(В'РВ) < 100 时 ,认为 BPB 是 良 态 的 ; 当 100<соп(В'РВ) <1000 时 ,认为 
ВРВ 有 中 等 程度 的 病态 ; 当 соп(В'РВ) > 1000 时 , ВРВ 严重 病态 6 ОКЖ, 王 松 桂 ， 
1987) .极端 地 , 当 con(BPB)- 一 co 时 , В'РВ 秩 亏 .由 此 可 知 , 对 最 小 二 乘 估计 的 改进 , 应 根 
据 条 件数 来 进行 .此 外 , ВРВ 的 态 性 还 与 B'PB 的 行列 式 | B PBE X. 行列 式 | ВРВІ 
越 小 , BPB 的 病态 越 严 重 . 为 此 , 我 们 根据 行列 式 | BPB | 和 条 件数 con( BPB ) 来 确定 约束 
向 量 С. 
定义 1-1-2 约束 向 量 G 是 下 列 线性 方程 的 解 : 
(В'РВ)С = |ВРВ |е (1-1-83) 
式 中 :e г х1 ВЕ, е= (1-9,1 8, ---,1- 0); 
_ f0, соп(В'РВ) 22100 
= 1, соп(В'РВ) < 100 
为 了 计算 上 的 方便 , 按 (1-1-83) 式 求 得 G 后 , 再 将 其 标准 化 , 使 下 式 成 立 : 
С'С=1 





分 析 (1-1-83) 式 知 ; 
G) con(B'PB)<100 Н, д =1,e=(0,0,…,0) .于 是 (1-1-83) 式 变 为 齐 次 线性 方程 
组 .由 于 | BPB| 取 0, 故此 时 (1-1-83) 式 没有 非 零 解 , 只 有 和 零 解 , BI G = (0,0,…,0) .这 表 
明 , 当 В РВ 为 良 态 时 , 不 需要 附加 约束 条 件 . 即 当 ВРВ 为 良 态 时 , 最 小 二 乘 估 计 不 需要 改 
Ж, 
(iD 当 100<соп(В'РВ)ЕТ, B PB 不 同 程度 地 病态 .此 时 8 =0,e=(1,1,…,1) .由 于 
1BPB| 关 0, (1-1-83) 式 的 常数 项 为 | BPB1e, 故 (1-1-83) 式 有 惟一 解 : 
G=(BPB) '|B'PB|e=(BPB)*e (1-1-84) 
式 中 :(BPB) X BPB 的 伴随 矩阵 . 
由 于 e=(1,1,…,1), 故 (1-1-84) 式 可 写 为 : 
gi= У) (ВРВ); (1-1-85) 


(ii) 当 con(BPB)->co 时 ,有 |BPBI=0. 此 时 8S=0,e=(1,1,…,1) .由 于 |B'PB|= 
0, 故 (1-1-83) 式 的 常数 项 为 0. 此 时 (1-1-83) 式 又 变 为 齐 次 线性 方程 组 . 因为 | BPB | = 0， 
故 齐 次 线性 方程 组 (1-1-83) 式 有 非 零 解 . 其 非 零 解 С 就 是 B'PB 的 零 特 征 值 的 特征 向 量 . 这 
正好 是 秩 亏 自由 网 平 差 的 情况 . 
由 以 上 分 析 知 , 模型 (1-1-77) 式 将 法 方程 为 良 态 、 病 态 和 秩 亏 时 的 平 差 问题 统一 起 来 
T, 也 就 是 将 最 小 二 乘 估计 、 岭 估计 和 秩 亏 自由 网 平 差 统一 起 来 了 . 
(3) Х 的 统计 性 质 
хс 具有 无 偏 性 , Н Xs 的 均 方 误差 小 于 等 于 义 Ls 的 均 方 误差 , 即 
E(Xc) = СО,В'РЕ(1,) = СО„В'РВХ = X 
М5Е(Х,;)<М5Е(Х |$) 
详细 证 明 见 《在 无 但 估计 类 中 改进 最 小 二 乘 估计 的 方法 )06 ( ЕН, 1995). 


十 、 线 性 模型 参数 估计 的 谱 修 正和 迭代 法 


岭 估 计 虽 然 能 在 某 种 程度 上 改善 最 小 二 乘 估计 , 但 它 存 在 两 个 问题 :第 一 , 由 于 岭 估计 
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改变 了 方程 的 等 量 关系 , 使 得 估计 结果 有 偏 ;第 二 , 岭 参 数 k 的 确定 非常 困难 , 且 随 意 性 很 
大 .那么 , 能 否 寻 找 一 种 算法 , 既 改 善 法 方程 的 态 性 , 又 不 改变 方程 的 等 量 关系 , 从 而 克服 岭 
估计 的 两 个 缺点 呢 ? 在 无 偏 估计 类 中 改善 最 小 二 乘 估计 的 方法 , 虽然 能 克服 这 两 个 缺点 , 但 
在 线性 模型 (1-1-1) 式 中 附加 GX=0 这 一 条 件 , 没有 充分 的 理由 .为 此 , 笔者 又 在 对 岭 估 计 
进一步 研究 的 基础 上 , 提出 了 一 种 新 的 迭代 算法 一 一 谱 修正 选 代 法 4 ( 王 新 洲 , 刘 丁 酉 等 ， 
2001). 


1 .修正 迭代 法 简介 
线性 模型 (1-1- 1) 式 的 法 方程 可 写 为 
В'РВХ - В'РІ, =0 (1-1-86) 
将 (1-1-86) 式 两 边 同 时 加 上 义 ,得 
(В'РВ +1) Х = ВРІ + Х (1-1-87) 


式 中 ;了 为 : 阶 单位 阵 . 
由 于 (1-1-87) 式 两 边 都 有 未 知 参数 X, 故 只 能 采用 迭代 的 方法 求解 (1-1-87) 式 . Н 
代 公 式 为 : 


х= (ВРВ + І) (В'РІ. + 文人-D) (1-1-88) 
令 а = (В'РВ + 1)! (1-1-89) 
则 (1-1-88) 式 可 写 为 

X=(g+g + + ф)ВРІ, + Ф (1-1-90) 


Жир 文 (0 为 未 知 参数 Х 的 初 值 . (1-1-88) 式 或 者 (1-1-90) 式 即 为 谱 修 正和 迭代 法 . 
2. 修 正 迁 代 法 的 收敛 性 
对 谱 修正 迭代 法 (1-1-90) 式 ,有 : 
定理 1-1-2 ЖЕ BPB 呈 良 态 、 病 态 或 秩 亏 , HA 
rk(B'PB+I)=t 
Вр B'PB + 了 为 满 秩 矩阵 . 
定理 1-1-3 对 于 法 方程 (1-1-86), 当 rk(B'PB) =: 时 ,不 论 (1-1-86) 式 为 良 态 或 病 
态 , 谱 修 正和 迭代 法 (1-1-90) 对 任意 的 初 值 文中, 均 有 
тх = (ВРВ) 'ВРІ. = Xis (1-1-91) 
И: : 
定理 1-1-4 对 tk(B'PB)=r<i, 即 当 法 方程 (1-1-86) 式 的 系数 矩阵 秩 亏 时 , 谱 修正 
迁 代 法 (1-1-90) 式 对 初 值 XO = 0, 有 
limX® = (В'РВ)* ВРІ. Г (1-1-92) 
即 ХИК. 
为 简化 以 上 定理 的 证 明 , 我 们 首先 给 出 几 条 引 理 . 
引 理 1-1-1 设 P 为 n REER, В Xn xt E, 则 
1) 当 rk(B)= 上 时 ,BPB 为 上 阶 正定 阵 , 且 其 特征 值 


A 之 42 之 … 之 A, >0; (1-1-93) 
2) 4 гк(В) = г<: 时 , В'РВ 5: 阶 半 正定 阵 , 且 其 特征 值 
ASe A, >À, EA =O. : (1-1-94) 
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证 明 ; Н Р 的 正定 性 ,对 VY Х5©0,{НҖ Х'МХ =(ВХ)'Р(ВХ):>0. МН B'PB 的 正定 
性 和 半 正 定性 知 , 存在: 阶 正 交 阵 Q(QQ = 门 ,使 BPB= QDQ, 其 中 DD= diag|41,42,…， 
л, ВО 的 列 向 量 为 BPB 的 特征 值 所 对 应 的 单位 正 交 特征 向 量 . 引 理 1-1-1 得 证 . 

引 理 1-1-2 设 B,P,1,9 如 前 所 述 , 则 

1) 当 rk(B’‘PB)=1 8t, | g ,<1; 

2) 4 гк(В'РВ) = г<, 时 , |9 1: = 1. 

WRA: Ё о= (ВРВ + Г) 7! ТУВУ 1-1-1 知 ,存在 上 阶 正 交 阵 Q(QQ’ = 1), E 





得 
B'PB+I=QDQ+I=Q(D+I)Q (1-1-95) 
这 里 Г = diag(41,432,…, A). ÆI D, = diag( (A1 +1) 71, (Аз +1) 71, e, (А, +1971), ДЯ 
а= (ВРВ + 1) = 9(р + Г) 19 = 00,9 
从 而 
1) 当 rk(B'PB)= г Bt, | q [| = тлах(А 4) = тах((А, +1) 710) = (А, +1)71<1; 
2)%4тК(В'РВ)=,<{,[|[|›=(А,+1)7!1=1. 
WŒ: 由 上 述 证 明 可 见 ,这 里 g=(B PB + 了 1)-! 本 质 上 是 对 ( BPB)-! 或 (B PB)- 的 谱 范 
数 的 一 种 修正 , 这 就 是 我 们 为 什么 称 算法 (1- 1-90) 式 为 谱 修 正 迭 代 法 的 理由 . 
引 理 1-1-3 设 B,P,1,9 如 前 所 述 , 则 当 | q т, РЕ 
І+а+а ++ ад + 
ХК, 且 其 和 为 (1- 9) -109( 刘 丁酉, 1998). 
引 理 1-1-4 В, Р, І, q 如 前 所 述 , 则 当 | о 上 ;<1 时 ,g ОО ОТИ, 
1998), Вр . 
im 9 =0 (1-1-96) 
下 面 给 出 定理 1-1-2、1-1-3 和 定理 1-1-4 的 证 明 . 
证 明 ; 由 (1-1-95) 式 知 , ЖЖ BPB 呈 良 态 , 病 态 或 秩 亏 , 均 有 
ВРВ +11 = 19 | DII О|=(А,+1)(А›+1)—(Ат+1)21 
从 而 秩 rk( B'PB + Г) =, B} ВРВ + І 5ЙЖКЖ. ЖЕЛЕ 1-1-2 得 证 . 
由 引 理 1-1-4 知 , 谱 修正 迭代 法 
2з х= (9 + 4? 十 .十 qt) В'РІ. + Ф“) 
=(1+9+ д? ++ Ф) ВРІ, -BPL 
再 由 引 理 1-1-3 即 知 
limX =(Т+а+а + +g+.)BPL -BPL=[(1- gq) '- 1]BPL 
=[(1-4)7!(1-(1-4))1В°Р1, = [471(1—4)1]7\В'7Р1, 
=(q7!- I) 'B'PL 
=(В'РВ)ЇВ'Р1. = Х,5 
ЖЕШ 1-1-3 得 证 . 
为 了 证 明定 理 1-1-4, 下 面 再 给 出 几 个 引 理 . 
引 理 1-1-5 设 P 如 前 述 , 则 存在 非 奇 异 阵 Т ЕР= ТТ. 
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证 明 ; 因为 P Hn 阶 正定 阵 , 所 以 存在 正 交 阵 A, 使 得 P= ARA, 若 记 


1/2 1/2 : 1/2 1/2 1/20. p1/2 р1/2 
10 pl ) x diag(Ai ‚42 т, Pn )= Р R 


R = diag(p1, из, °» pn) = diag( ui, p 
于 是 
Р=(Е!?А) (Е!?А)=Т'Т 
31 1-1-6 ЎР, В, Q 如 前 述 , 则 081( 刘 村西 ,1998) : 
ВР= О'р!?Т 
证 明 ; 因为 BPB= Ор!?р!? = (Р!?О)' (р!? О) 
又 N = В'РВ = В'Т'ТВ = (ТВ) (TB) 
比较 上 面 两 式 , 可 知 (TB) = (Р!?О)', М: 
В'Р= (ТВ) Т=О'Р!*Т 
引 理 1-1-7 设 B,P,N,g,U 如 前 述 , 则 








(AI+1) 
Ат ру’ Е 
40269 (д, +1) 7% QU 
Ou-r) 
证 明 : 因为 
а=(М+)!=[0'(Рр+1)О0]!=О0'(ЮОЮ+1)!0 
U = ВРІ, = О'Р!?? ТІ. 
所 以 
ИШ = Q' (D+E) QQDATL 
(A1+1)-* Га ) 
-k 1/2 
=Q (A, +1) А, TI. 
1 0 
1. 0) 
(4+1) 7* ЗГА! 
-k 1/2 
=Q (A, +1) А; TL 
0 0 
0. 0 


= Q'diag( (à +1) 7%, (Аз +1), =, (А, +1) 7,0, 0)QU 
5198 1-1-8 Ù р = аар(д1, А, 7,4,0, 0), WCS (ЖГ ҮЧ, 1998): 
Р * =фар(А;!,А2!,`7,А,!,0,°,0) 
3181-1-9 Ў Р.В.мЕЖ, H (№) = <, M) 
N =О'р* О 
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国 溃 了 时 参 数 估 计 理 论 与 应 用 
证 明 : 由 Moore-Penrose 逆 的 定义 直接 验证 可 得 . 


引 理 1-1-10 29 = О’аарі (Ау +1) 71, (А+ 1) 71, =, (А, +190710, ---, 00, АЈ 


т (91+ qit + д1) = О'аав(Аг!, А51, =, A7", 0, 5,0) = (В'РВ)* 


rr “т 


-1 
证 明 . EERO +D tet ав А адри ЮЕ. 
下 面 再 来 证 明定 理 1-1-4. 
证 明 : 由 谱 修 正 算法 , 并 取 O = 0, 则 
= (ф+а + ~=- + gt) BPL 
=qB'PL + q? B'PL +- + gtB’PL 
再 由 引 理 1-1-7 至 引 理 1-1- 10 Ж 


(1-1-97) 


X = іт ХӘ = Q'( Ууаш((А, + 1)7!,--,(А, + 1)71,0,-—,0)) QB'PL 
一 k=l 


= Q'diag( àr t, ,4-1,0,.…,0)QB’PL 
=(В'РВ)* BPL 
定理 1-1-4 得 证 . 
3. 估 计量 文 的 协 因数 矩阵 
全 微分 (1-1-90) 式 得 
dX=lim(qg+g +. + qt)B'PdL 
应 用 协 因 数 传播 律 , 得 
Охх = lim(q + 42+ + 4#)(В'РВ)(а + 45+ + 4) 
定理 1-1-5 当 法 方程 系数 矩阵 BPB 满 秩 时 , 有 
Охх = (ВРВ)! 
当 法 方程 系数 矩阵 BPB 秩 亏 时 , 有 
Qxr=(BPB) 
下 面 来 证 明 (1-1-100) 式 和 (1-1-101) 式 . 
ШЕН. 当 法 方程 系数 矩阵 BPB 满 秩 时 , 由 引 理 1.1-3 知 
їт(Г+9+ 42+ +9) = (1-@)7! 
所 以 
lim(q +g t+ t+ ф) = (1-9) - 1 
= (1-9) 1-(1-9)) 
= (1-4)! 
= (q (I -9))`! 
= (971 ~- р)! 
= (ВРВ)! 
将 上 式 代 人 (1-1-99) 式 ,得 
Охх = (В'РВ) `! 
(1-1-100) 式 得 证 . 
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(1-1-98) 


(1-1-99) 


(1-1-100) 


(1-1-101) 


(1-1-102) 





С Ӊї“өк=пая 


为 了 证 明 (1-1- 101) 式 ,我们 再 给 出 下 列 引 理 . 
3/8 1-1-11 设 P.B 如 上 所 述 , 且 rk(BPB)=r<i, 则 对 于 一 切 自然 数 in 、n, 有 


4"В'РВд" = (q,)”B'PB(q1)" (1-1-103) 
证 明 : 因为 
а= (В'РВ + 1)! =(9'(р + 1)9) =Q (р+г) 0 
所 以 | 
=Q (D+I) ”Q, 7 =Q (О +1) "О. 
于 是 
а"В'РВа" = Q (О + 1) "QQ DQRQ (D+1) "Q 
(à,+1)7” Ài 
=Q (à, +1)” А, 
1 0 
1 0 
(Ау +1) 7" 
(А, +1) 7" Q 
1 
1 


= ав (à, +1) 7", =, (A, +1) 7”, 0, =, 0} QB'PBQ’ diag (à; +1) 7", =, 
(+1) 001Q 
= 41 В'РВа{ 
引 理 1-1-12 в: MEER, |A lia t MERFI, H lim A, = А, WO OT 
ТЧ, 1998): 
lim (АВА) = АВА (1-1-104) 
下 面 再 来 证 明 (1-1-101) 式 .由 引 理 1-1-4 至 引 理 1-1-6 知 , 4 ВРВ #56}, 有 ; 
Охх = lim | (q +q? + + Ф)ВРВ(а + 42+ 4) 
= іт (4В'РВа + qB'PBq? + -+ + 4В'РВд + 42В'РВа + + В'РВФ) 
= іт (q, В'РВо, + 4.В'РВаі + + а.ВРВа + 91В'РВа + + qì В'РВд\) 
= lim{ (qi + qit + 4)ВРВ(а + qit + qi) 
=(B'PB)*(B'PB)(B'PB)* 
=(В'РВ)* 
(1-1-101) 式 得 证 . 
4. 估 计量 名 ЖИМА ОЕ РЕ Qxx 的 选 代 程 序 
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ЊЕ Ж ЕДШ ЯК ЖЕШ, 而 估计 量 X 的 协 因数 矩阵 Qxsk 也 需 和 迭代 求 得 , 故 
可 在 求解 估计 量 文 的 同时 求 得 它 的 协 因数 矩阵 Qer. 其 迭代 程序 如 下 : 

(1) 计 算 g=(B PB+1)-!, 并 令 M=g,Y=U. 

(2) 计 算 M=g+ Mg,X=MU. 

(3) 如 果 | zx; -yl >eli=1,2, 7, t,e 是 充分 小 的 正 数 , 称 为 迭代 误差 限 ), 则 Y = х, 
转 (2). 

(4) 计 算 S = MB PBM, H X MS. 

S 就 是 估计 量 X 的 协 因数 矩阵 О у 

5. 算 例 

例 1-1-1 本 例 取 自 (测量 平 差 基础 ;09( 於 宗 侍 , 鲁 林 成 ,1983) 上 的 例 6-12. 法 方程 为 

94.61 -22.11 -11.45 -6.96) [21 





-43.52 

-— 22.11 70.51 -6.95 一 8.42| |172 
= |178.81\ = ~ 120.11 

-11.45 -6.95 96.09 ~20.21||z3 
-30.07 


-6.96 -8.42 -20.21 66.63? 124 
法 方程 系数 矩阵 B'PB 的 特征 值 为 : А = (112.5549 102.6065 71.2172 41.4614), 


法 方程 系数 矩阵 BPB 的 条 件数 为 : con( N) = Amw = 112-5549 0 7147<100. 


41.4614 
所 以 该 法 方程 为 良 态 法 方程 . 该 法 方程 按 以 上 迭代 程序 迭代 3 次 ,得 
~ 0.1030 0.0120 0.0043 0.0023 0.0025 
2.3209 0.0043 0.0161 0.0024 0.0032 
х9 = ， Охо) = 
— 1.2066 ” 0.0023 0.0024 0.0117 0.0041 
-0.5348 0.0025 0.0032 0.0041 0.0169 


可 见 与 高 斯 约 化 的 结果 完全 相同 . 
1-1-2 本 份 取 自 王 新 洲 、 刘 丁酉 等 (2001) 的 例 2. 法 方程 为 
2.1220 -0.0269 0.0048 ”0.00191fza 2.090033 
-0.0269 1.9949 -0.0432 -0.0168| х2) |3.765983 
0.0048 -0.0432 0.8892 1.0178| jx |6.656877 
0.0019 -0.0168 1.0178 1.1656! lr, 7.684058 
法 方程 系数 矩阵 B'PB 的 特征 值 为 
А =(2.12992 2.07078 1.97089 0.00004) 


法 方程 系数 矩阵 BPB 的 条 件数 为 


所 以 该 法 方程 为 病态 方程 . 设 未 知 参数 的 真 值 为 X=(1 2 3 4) ,由 此 真 值 算得 的 
常数 项 为 


* ” 当 法 方程 为 病态 矩阵 时 , 如 此 迭代 有 限 次 得 到 的 S REX 的 协 因数 和 矩阵 Qi 的 近似 值 . 其 近似 程度 
取决 于 迭代 次 数 , 迭代 次 数 越 多 , 近似 程度 越 高 . 
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B'PL = (2.090033 3.765983 6.656877 7.684058). 
И ВРІ. = (2.090 3.765 6.656 7.684), 18 
Х=(В'®РВ)!В'РІ. = (1.0310 1.6570 -– 20.9743 24. 9290), | -x= 
31.8262 | 
按 以 上 选 代 程序 选 代 12 次 , 得 


0.9996 0.4713 0.0063 -0.0003 —0.0010 
хар 2.0037 Qag = 0.0063 0.5015 0.0026 0.0111 
3.2636 ` -0.0003 0.0026 0.2131 0.2390 
3.7697 -0.0010 0.0111 0.2390 0.2784 


I Xt” — X | 2=0.3415 
AA 99-Х || 2=0.3415< | X- X |= 31.8262, 可 见 谱 修正 迭代 法 能 很 好 地 改 
善 最 小 二 乘 估计 . 
例 1-1-3 本 例 取 自 (测量 平 差 基础 ) 09)( 於 宗 传 , 鲁 林 成 ,1983) 上 的 例 7-5. 秩 亏 自由 
网 平 差 的 法 方程 为 


5 -2 -1 2 -11 
一 2 3 -1 -2 10 
x= 
-1 -1 3 -1 -2 
-2 -2 -1 5 3 
Ж ЕКА 6 次 , 得 
一 1.3000 0.1161 -0.0268 -0.0625 -0.0268 
1.5000 - 0.0268 0.1161 -0.0625 -0.0268 
Х% = , Окосе = 
– 0.5000 М -0.0625 -0.0625 0.1875 -0.0625 
0.5000 -0.0268 -0.0268 -0.0625 0.1161 


可 见 与 (测量 平 差 基础 )0% OARE, 鲁 林 成 , 1983) 中 的 结果 完全 相同 . 
十 一 .线性 模型 参数 的 贝 叶 斯 估计 


上 述 各 种 估计 , 都 是 认为 在 观测 之 前 , 人 们 对 参数 X 一 无 所 知 . 故 X 为 非 随机 变量 . П 

叶 斯 (Bayes) 估 计 则 不 同 , 认为 在 观测 之 前 , 人 们 根据 以 往 的 经 验 或 某 种 理论 , 就 对 参数 X 

有 了 一 些 认识 .由 于 这 些 认识 是 在 试验 以 前 就 有 的 , 故 称 为 先 验 信息 .表述 这 种 先 验 信息 的 

最 简单 和 最 方便 的 方法 , 就 是 将 参数 X 看 做 随机 量 , 并 给 出 它 的 分 布 x(X). 这 个 分 布 一 般 

称 为 参数 X 的 先 验 分 布 吕 (成 平 , KARS, 1985) 在 对 参数 X 进行 估计 时 , 充分 顾及 X 的 

先 验 信息 , 这 就 是 贝 叶 斯 估计 的 最 大 特点 ， 

下 面 扼 要 给 出 在 平方 损失 下 , 观测 向 量 L 和 参数 X 均 服从 正 态 分 布 时 的 员 叶 斯 估计 公 

设 线 性 模型 (1-1-1) 式 中 的 观测 误差 A 服从 正 态 分 布 N (0, Ds), 参数 X 的 先 验 分 布 
x(X) 也 服从 正 态 分 布 N(j, рх), 则 参数 X 的 贝 叶 斯 估计 为 

Хв= p+ Dx В'(Врх В' + Da) 1. - Ви) _ (1-1-105) 


因为 
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и + Юу В'(ВОх В + Da) IL - Ви) 
= и + Dy В'(ВрхВ' + Da)“ 'L - Юу В'(ВОу В' + Da) Ви 
= y + Dx B'(BDy B’ + р) 'L + рх, ВЧ, 
- Dx,B’(BDx,B’ + Da) (Врх, В' + Da) D3'L - Dy,B'(BDx,B' + рц) ”Br 
= р + Dx B'D3'L - Dy,B'(BDyx В + Da) "Врх B’ + Da- Da)D3'L 
- Dx, B’ (BDx В' + Da) Ви 
= р + Dx В 1, - Dx,B' (BDx B’ + Da) "Врх B'D3'L 
- Dx,B’(BDx,B’ + Das) Врх, В'хіи 
= рх (Вх, + Рх} н) – Рх, B'(BDx,B' + Па) 'Врҳ (B'Dx, L+ Охан) 
= [0х ~ Рх, В“(Врх В’ + Da) 'BDy 1(В'ҳіІ. + Ох! н) 
= (рх! + В'рх!В)`«В'Юхі, + уни) 


又 因为 Di = 051, рз 5001. o=, M 


Рхі= Ох! = Ру, Dx = Фп = Р (1-1-106) 
所 以 参数 X АТАТ EAO ( 张 金 槐 , 唐 雪 梅 , 1989) : 
Xa=(Px+BPB)(BPL+Prpn) (1-1-107) 


上 面 经 过 复杂 的 推导 , 才 从 (1-1-105) 式 推出 我 们 所 熟悉 的 (1-1-107) 式 .事实 上 , 按 以 
下 推导 很 容易 得 到 (1-1-107) 式 . 
因为 贝 叶 斯 估计 Хь 的 先 验 信息 已 知 , 若 令 Vp = Xp - и, WA 


У=ВХь-1. 
Уз=Хн-к (1-1-108) 
ЖАЛАА РЕ У 
Р 0 
Р= |) Px, (1-1-109) 








Ф УРУ + VgPVpg= min 下 可 得 
Xs = (Рх + ВРВ) (ВРІ, + Px н) 

当 在 观测 前 对 参数 X 一 无 所 知 时 , y 可 取 任 意 实 向 量 .由 于 / 为 任意 实 向 量 , 则 精度 就 
非常 之 低 , 即 Dx = co .于 是 有 Px =0. 将 Px,=0 代入 (1-1-107) 式 , 得 无 先 验 信息 时 的 贝 
叶 斯 估计 为 

Хв=(В'РВ)!В'Р1,= Xs (1-1-110) 

(1-1-110) 式 表明 , 对 于 正 态 观测 向 量 , 当 无 参数 X 的 先 验 信息 时 , 线性 模型 参数 的 页 

叶 斯 估计 就 是 最 小 二 乘 估计 ， 


十 二 ,广义 线性 概括 模型 参数 估计 


在 线性 模型 参数 的 最 小 二 乘 估计 中 , 未 知 参数 X 为 非 随机 参数 , 而 在 线性 模型 参数 的 
贝 叶 斯 估计 中 , 未 知 参 数 X 为 随机 参数 . 当 线性 模型 中 的 未 知 参 数 一 部 分 为 随机 参数 , 一 部 
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分 为 非 随机 参数 时 , АГАВ ЕАО и ЖАТ ЖИ. 为 了 将 各 种 线性 模型 统一 在 一 个 模 
型 下 面 , 笔者 提出 了 广义 线性 概括 模型 21( 王 新 洲 ,2000) . 现 扼要 介绍 如 下 : 
1. 函数 模型 
广义 线性 概括 模型 的 函数 模型 定义 为 
І = ВХ+АҮ+Д 
СХ + Со= 0 
9:1 为 n х1 的 观测 值 向 量 ; A 为 n x m 的 已 知 系数 矩阵 , 其 中 A =(А, 0),Al 为 nx 
т ү 的 已 知 系数 矩阵 ,0 为 nx т, ЕЕЕ; В 为 x хи 的 已 知 系数 和 矩阵; С 为 4 x w 的 已 知 系 
ЖОЕ РЕ; Co ахі 的 常数 向 量 ;X 为 x x 1 的 非 随机 参数 向 量 ; Y 为 mw x 1 的 随机 参数 向 
量 , 且 了 = | 5. ;S Hm X1 的 已 测 点 随机 参数 ;S* 为 m, x1 的 未 测 点 随机 参数 ;A An 
x1 的 观测 误差 向 量 ; 为 观测 值 的 个 数 ; и 为 非 随机 参数 的 个 数 , и>; m 为 随机 参数 的 
个 数 , 且 ті+тә= т; =u 一 t 为 不 独立 的 非 随 机 参数 的 个 数 . 
2. 随机 模型 
取 单 位 权 方差 "= 1, 则 


(1-1-111) 


us | 





E(S) } -1 
Е(А)=0,Е(СҮ)= кз)!” мака) = QP 
| Qss Qss” 
Var(Y) = Q,,= = Р! 
а ” 155 Өч i 








Var(L)= Qu = Р! = (Qa + В, О55В;), Cov(A, У) =0, Соу(Ү, A)=0 
3. 估 计 公 式 














令 
{Ls | ! | 
[=| 5 | ево = | | (1-1-112) 
Ls | us" 
则 虚拟 观测 方程 为 
iS \ Ag | 
L=Y+a =| |+ | (1-1-113) 
5%) Ас“ 
于 是 由 式 (1-1-111) 和 式 (1-1-113) 可 得 误差 方程 和 条 件 方程 
у= Ү-1., | 
У= ВХ +АҮ- 1 (1-1-114) 
СХ + Су=0 | 
再 令 
1 ү, Х x А 0 Е 
ME ае еа ее о 
1, ү Y д А! В А 
则 有 
_ » 0}_ IQ; 0 P, 0 
var(2) | | -| ” _ -| | (1-1-115) 
Qaa 0 Qa 0 Р, 








аан LAN 计 理 论 与 应 用 


为 了 根据 广义 最 小 二 乘 原理 
УРУ = VPAV+VIP,V, = тіп 
求解 参数 之, 组 成 函数 
= УРУ +2К'(С2 + Co) 
式 中 :K жахі 的 联系 数 向 量 . 
(1-1-118) 式 对 之 求 偏 导数 , 并 令 其 为 零 . 转 置 后 得 
ВРУ+СК=0 
由 (1-1-116) 式 和 (1-1-119) 式 可 得 法 方程 
i 





С2 + Co=0 
4 
O L n | ВР. 
N = ВРВ, U = BPL = j 
PL, + A'Pal 
则 有 
[a allel al 
С O/\K Е -Cl 7? 
令 


Б РБ M Naa втв В'РуА 

















Na М» АРВ Р, + АРА) 
则 (1-1-121) 式 可 写 为 
Na № CX BPL 
Na М» 0 ||! РИ, +A PaL 
с о оК - С, 





4. 各 种 特殊 情况 
(1) 最 小 二 乘 配置 





(1-1-116) 


(1-1-117) 


(1-1-118) 


(1-1-119) 


(1-1-120) 


(1-1-121) 


(1-1-122) 


H u =e 时 , 即 当 (1-1-111) 式 中 的 非 随机 参数 仅 为 :个 独立 的 非 随 机 参数 时 , 有 = 


и-1=0. ЖЕ С =0, Со= 0. Р(1-1-111) 3 
1 = ВХ+АҮ+Д 
(1-1-123) 式 就 是 最 小 二 乘 配置 的 函数 模型 
由 于 C=0, Co=0, 所 以 (1-1-122) 式 变 为 








Na МХ) 1 BPL 
M №, (aller ави 
由 u = 上 知 系数 矩阵 B 列 满 秩 .于 是 式 (1-1-124) 的 解 为 
И _ М+М МКМ М -NINeR С! 
Y -R 'Na Ng’ ЕС! 
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И PaL + P Ly 


(1-1-123) 


(1-1-124) 


| 


(1-1-125) 





КЗ ФКБ 
式 中 : R=P,+ ЛАРА — А'РЬВ(В'Р,В)!В'Р,А 
即 ( 见 (测量 平 差 基 础 ), 武汉 测绘 科技 大 学 测量 平 差 教 研 室 , 1996). 
X=[B (Qua tA Qss А) B] B (Qu tA 55А) !(1.— Аи) 
Y= Ly + ОүүуА' (Qas + AQyy А”) ICL - BX - ALy) 











(1-1-126) 
顾及 
К 5 | Qss Qss“ | ps 
А =(А, Ер oS у= us 
可 得 
S = us t Qss Ai (Qaa + A1Qss A1) (1 -BX - Аи) (1.10127) 
S" = р + О$*вА(( Ом + А Qss Ai) IL ~ BX- Аи) 





(2) 最 小 二 乘 滤波 和 推 估 
当 x=0, 即 当 式 (1-1-1ll) 中 不 含 非 随机 参数 时 , 有 В = 0, С = 0, Co = 0, 此 时 式 
(1-1-111) 变 为 
L=AY+A (1-1-128) 
由 于 Y 为 随机 参数 , 故 (1-1-128) 式 就 是 最 小 二 乘 滤波 和 推 估 模 型 (武汉 测绘 科技 大 学 
测量 平 差 教 研 室 , 1996). 
将 B=0 代入 (1-1-126) 式 和 (1-1-127) 式 ,得 
Y= Ly + QyyA’ (Әл + AQyyA ' ) L- ALy) 
Ŝ = ps + QssA (Qu +A Qss A1) !(1.— Аи) 
5% = pst + QsrsA (Qas + A РА) TICL А5) 
由 (1-1-129) 式 的 第 三 式 知 , 虽然 S” 为 未 测 点 上 的 随机 参数 , 且 与 观测 值 之 间 无 函数 
关系 , 但 只 要 已 知 S* 和 S 的 协 因数 矩阵 Qs*s, 就 可 以 估计 S*. 这 说 明 事 先 了 解 各 量 之 间 的 
统计 相关 性 是 非常 有 用 的 . 
(3) 贝 叶 斯 估计 
在 (1-1-122) 式 中 , 当 B=0,C=0,Co=0 时 ,有 
№ =0, №, =0, № =0,ЙЖ Ny = Py + A PsA, 则 (1-1-122) 式 变 为 
(A‘PsA +P,)Y=(A'PsL + Р.) (1-1-130) 


(1-1-129) 





于 是 有 
Y=(A‘PaA + Ру) ЧАРУ + PL,) (1-1-131) 
(1-1-131) 式 就 是 员 叶 斯 估计 (1-1-110) 式 .可 见 贝 叶 斯 估计 也 是 广义 线性 概括 模型 参 
数 估 计 的 特例 . 


(4) 带 线性 约束 的 线性 模型 | 

当 m=0, 即 当 式 (1-1-111) 中 不 含 随机 参数 时 ,有 A =0, 此 时 式 (1-1-111) 变 为 
L=BX+A 
CX+ Co=0 (1-1-132) 


(1-1-132) 式 就 是 前 面 介绍 的 带 线性 约束 的 线性 模型 .相应 的 误差 方程 和 条 件 方程 为 
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| 
CĂ + Co=0 
由 于 m =0, PA P,=0, A =0, Pa = Pr=P. 于 是 式 (1-1-122) 变 为 


| B PB ИН -| 


© С 0 一 Co 
其 解 为 
пх) вв сүв) 
\ C 0 - Со 
可 见 带 线性 约束 的 线性 模型 是 广义 线性 概括 模型 的 特例 . 
(5) 一 般 的 线性 模型 


当 т = 0), 即 当 式 (1- 1-111) 中 不 会 随机 参数 A =0, H и =: В, 即 当 仅 含 i 个 独立 的 参 
数 时 ,有 cd=uv-t=4-4=0. 故 C=0,Co=0. 于 是 (1i-1-111) 式 变 为 
L=BX+A 
这 就 是 一 般 线性 模型 . 其 解 为 
Xis= (BPB) BPL 
由 以 上 推导 知 , 模型 (1-1-111) 是 包含 最 小 二 乘 配置 .最 小 二 乘 滤波 和 推 估 . 贝 叶 斯 估 
计 、 带 线性 约束 的 线性 模型 和 一 般 线 性 模型 的 广义 线性 概括 模型 . 


第 二 节 ” 非 线 性 模型 参数 估计 问题 的 提出 及 其 进展 


从 上 节 可 以 看 到 ,线性 模型 参数 估计 理论 十 分 成 熟 , 成 果 异 常 之 多 .但 现实 中 的 实际 模 
型 往往 并 不 是 线性 模型 .而 是 非 线 性 模型 (Nonlinear Model). 用 线性 模型 的 理论 来 处 理 非 线 
性 模型 , 只 是 一 种 简单 的 .近似 的 方法 . 这 种 近似 往往 带 来 很 多 问题 , 得 出 与 事实 不 相符 的 结 
论 . 因 此 , 人 们 自然 会 想到 , 既然 实际 模型 是 非 线 性 模型 , 就 应 该 用 非 线 性 科学 的 方法 来 处 理 
实际 模型 ， 

非 线 性 科学 在 过 去 的 30 多 年 间 激 励 了 自然 科学 .工程 技术 与 社会 科学 的 几乎 全 部 的 科 
学 人 研究 人 员 , 并 向 人 们 提出 了 划时代 的 挑战 . 正 是 由 于 非 线 性 的 作用 , 才 孕 育 出 大 自然 的 万 
于 气象 , 人 类 社会 的 风云 变幻 和 人 类 思维 的 错 综 差 异 C2 ( 焦 李 成 , 1990) ЕЛ. РЕЖ, ЕНК 
结构 、 孤 粒子 、 自 组 织 、 协 同学 、 超 循环 与 微 循环 .奇异 吸引 子 与 混沌 动力 学 等 理论 的 问世 和 
RIR, 使 人 们 认识 到 非 线性 是 一 切 复杂 问题 之 源 5221( 焦 李 成 , 1990) . 非 线性 科学 就 是 研究 复 
杂 性 现象 的 一 类 新 学 科 . 因此, 要 深入 地 、 精 确 地 、 符 合 实际 地 研究 各 种 自然 现象 乃至 社会 现 
象 , 就 必须 研究 非 线性 问题 . 非 线性 问题 涉及 到 自然 科学 的 方方面面 . 周 光 召 1995 年 12 月 
在 4 人 民 日 报 ) 发 表 的 《 迈 向 科技 大 发 展 的 新 世纪 ) 一 文中 指出 :“ 非 线性 科学 是 关于 体系 总 体 
本 质 的 一 门 新 学 科 , 它 更 着 重 于 总 体 、 过 程 和 演化 . 因此 , 透 过 这 扇 窗 户 , 看 到 的 将 与 牛顿 、 爱 
因 斯 坦 等 人 所 创建 的 决定 性 的 .简单 和 谐 的 模式 不 同 , 而 是 一 个 演化 的 .开放 的 .复杂 的 世 
界 ,这 是 一 幅 更 接近 真实 的 世界 图 景 .” 他 同时 还 指出 :“ 非 线性 科学 不 仅 在 认识 论 上 有 重大 
的 哲学 意义 , 在 求解 基本 问题 时 有 重大 科学 意义 , 而 且 在 研究 生态 环境 .医疗 诊断 、 经 济 发 
展 、 科 学 决策 等 许多 问题 时 , 都 有 重要 的 应 用 价值 .” 
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由 于 非 线 性 问题 的 理论 研究 远 比 线性 问题 的 研究 困难 得 多 、 复 杂 得 多 , 所 以 许多 国家 专 
门 成 立 了 非 线 性 问题 研究 机 构 , 并 设立 研究 课题 . 例如 , 国家 自然 科学 基金 委员 会 采纳 郝 柏 
林 等 提出 的 建议 , 在“ 八 五 "期间, 把 非 线性 科学 作为 全 国 10 项 重大 课题 之 一 , 列 人 攀登 计划 
首 批 项 目 , 由 著名 数学 家 谷 超 豪 担 任 这 一 课题 的 首席 科学 家 . 

非 线 性 科学 在 测绘 界 也 同样 受到 重视 .国家 自然 科学 基金 委员 会 1994 年 在 自然 科学 学 
科 发 展 战略 调整 调查 报告 (大 地 测量 学 (国家 自然 科学 基金 委员 会 , 1994) 23) 一 书 中 , 明确 
提出 将 非 线性 模型 参数 估计 理论 作为 大 地 测量 学 科 发 展 的 重大 基础 理论 问题 之 一 . 这 是 因 
为 就 参数 估计 而 言 , 线性 模型 中 的 很 多 理论 在 非 线 性 模型 中 就 不 一 定 适用 ;线性 模型 中 的 很 
多 结论 在 非 线 性 模型 中 就 不 一 定 成 立 ;线性 模型 参数 估计 中 的 很 多 优良 统计 性 质 在 非 线性 
模型 中 就 不 一 定 存 在 . 例如 , 在 线性 模型 中 , 当 随 机 误差 服从 正 态 分 布 时 , 未 知 参 数 X 的 最 
小 二 乘 估计 广 Ls 具 有 一 致 无 偏 性 和 方差 最 小 性 .但 在 非 线性 模型 参数 估计 中 , 即使 随机 误差 
严格 服从 正 态 分 布 ,未 知 参 数 X 的 非 线性 最 小 二 乘 估 计 文 vs 也 是 有 偏 的 . 其 方差 一 般 都 不 
能 达到 CR 下 界 .“ 非 线性 "本身 是 一 种 数字 特征 , 但 非 线性 问题 即使 在 数学 中 也 并 不 成 
RON CRIER, 1989). 因此 , 必须 对 非 线性 模型 参数 估计 问题 进行 深入 的 研究 . 

现实 世界 中 , 严格 的 线性 模型 并 不 多 见 , 它们 或 多 或 少 都 带 有 某 种 程度 的 近似 . 随 着 科 
学 技术 和 近代 统计 学 的 飞速 发 展 , 不 能 简单 化 为 线性 模型 的 非 线 性 模型 越 来 越 多 地 出 现在 
统计 学 家 面前 . 农业、 生物 .经 济 、 工 程 技术 等 各 部 门 都 提出 了 许多 非 线 性 模型 以 及 其 他 非 线 
性 统计 问题 . 因此 , 积极 开展 非 线性 模型 参数 估计 的 研究 在 理论 与 实践 中 日 趋 重 要 . 非 线性 
模型 参数 估计 是 线性 模型 参数 估计 的 自然 推广 , 也 是 必然 发 展 趋势 24 ( 韦 博 成 , 1989) . я 
外 , 对 线性 模型 参数 估计 的 理论 研究 已 臻 完善 , 而 对 非 线 性 模型 参数 估计 的 研究 , 理论 还 不 
成 熟 .所 以 从 理论 上 讲 , 有 必要 对 非 线 性 模型 参数 估计 理论 进行 深入 的 研究 . 

在 测量 上 , 大 量 的 数学 模型 也 是 非 线 性 模型 . 现代 大 地 测量 的 观测 方程 多 具有 很 强 的 非 
线性 性 , 对 非 线性 展开 初 值 点 十 分 敏感 , 需要 研究 模型 空间 的 容许 曲率 问题 , 以 及 非 线性 函 
数 空间 的 平 差 理论 和 可 普及 的 适用 方法 (国家 自然 科学 基金 委员 会 , 1994)23 . 对 于 大 地 测 
量 中 大 量 的 非 线性 模型 , 传统 的 做 法 是 线性 近似 (测量 上 称 之 为 线性 化 ), 即将 其 展 为 泰勒 级 
数 ,并 取 至 一 次 项 , 略 去 二 次 以 上 各 项 . 如 此 线性 近似 , 必然 会 引起 模型 误差 .过 去 由 于 测量 
精度 不 高 ,线性 近似 所 引起 的 模型 误差 往往 小 于 观测 误差 , 故 可 忽略 不 计 . 随 着 科学 技术 的 
不 断 发 展 , 现在 的 观测 精度 已 大 大 提高 , 致使 因 线 性 近似 所 产生 的 模型 误差 与 观测 误差 相 
当 , 有 些 甚 至 还 会 大 于 观测 误差 . 例如 , GPS 载波 相位 观测 值 的 精度 很 高 , 往往 小 于 因 线 性 
近似 所 产生 的 模型 误差 . 

鉴于 上 述 各 种 原因 , 有 必要 结合 测量 数据 处 理 的 实际 , 对 非 线 性 模型 参数 估计 进行 深入 
的 研究 . 

关于 非 线 性 模型 参数 估计 理论 的 研究 , 始 于 20 世纪 60 年 代 初 期 . 但 其 进展 并 不 快 . 直 
到 1980 Ж, 加拿大 统计 学 家 Bates M Watts 引入 曲率 度量 以 后 , 才 得 到 较 快 的 发 展 C4] ( 韦 博 
成 ,1989). 测 量 上 对 非 线 性 模型 参数 估计 理论 的 研究 相对 较 晚 . 较 深 入 的 研究 是 20 世纪 80 
年 代 后 期 的 事 . 1985 年 之 后 , 国际 著名 的 大 地 测量 学 者 P.J].G. Teunissen 在 非 线性 模型 参数 
估计 方面 作 了 卓有成效 的 研究 525 . 先后 研究 了 非 线性 模型 最 小 二 乘 估计 的 一 .二 阶 矩 . ШЖ 
了 非 线性 模型 的 识别 .度量 非 线性 强度 的 指标 以 及 非 线性 模型 曲率 的 几何 意义 等 . 通过 对 展 
开 式 中 会 去 项 造成 函数 模型 偏差 的 研究 , 提出 从 舍 去 的 项 中 找 出 其 对 函数 模型 和 参数 的 影 
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响 , 然 后 对 函数 模型 和 参数 的 估 值 进行 修正 (P.J. С. Teunissen, 1985, 1988, 1989, 
1990) 26 — (28) .Blaha 系 统 地 研究 了 非 线性 最 小 二 乘 的 无 迭代 求解 理论 29 (Blaha. G. 1994). 
Lohse 系统 地 研究 了 非 线 性 模型 的 参数 估计 理论 90 (Lohse. P. 1993). Athanasios Dermanis 
和 Fernando Sanso 研 究 了 可 容许 和 不 可 容许 的 非 线性 估计 原理 , 提出 了 非 线性 估计 的 贝 叶 
斯 方法 80 (Athanasios Dermanis and Fernando Sanso). 

在 我 国 , 广大 测量 学 者 曾 对 非 线性 模型 参数 估计 中 的 一 些 问 题 作 过 零星 的 研究 . 例如 徐 
培 亮 研究 了 非 线 性 函数 的 协 方差 传播 公式 52( 徐 培 亮 ,1986). 刘 大 杰 、 黄 加 纳 研究 过 非 线 性 
最 小 二 乘 的 迭代 解法 G3 (刘大杰 , 黄 加 纳 , 1987). 周 世 健 研究 了 广义 方差 - 协 方差 传播 
( 周 世 健 ,1996). 刘 国 林 、 陶 华 学 在 非 线性 模型 参数 估计 方面 做 了 一 些 系 统 的 研究 工作 . KE 
工作 都 是 对 非 线性 模型 展开 后 取 至 二 次 项 , 然后 再 对 其 加 以 研究 , 他 们 研究 了 这 种 新 非 线性 
模型 下 的 平 差 问 题 (如 秩 亏 自由 网 平 差 ) 和 协 因 数 的 传播 问题 3969( 刘 国 林 , 陶 华 学 , 1997， 
2000). 胡 圣 武 、 陶 本 藻 对 非 线 性 模型 参数 估计 的 统计 性 质 作 了 初步 研究 , 并 将 其 应 用 到 GIS 
中 9708( 胡 圣 武 , 陶 本 藻 ,1997) . 笔者 在 国家 自然 科学 基金 的 资助 下 , 对 非 线性 模型 参数 估 
计 理 论 作 了 系统 的 研究 . 从 非 线 性 模型 非 线 性 强度 的 度量 , 到 如 何 判 断 一 个 非 线性 模型 能 否 
线性 近似 ;从 非 线性 模型 参数 估计 的 算法 , 到 非 线性 模型 中 单位 权 方差 的 估计 都 作 了 深入 的 
研究 .提出 了 非 线 性 模型 线性 近似 时 容许 曲率 的 概念 ;给 出 了 非 线 性 模型 能 否 线性 近似 的 实 
用 判 据 ; 导 出 了 非 线性 模型 参数 估计 的 直接 解法 和 非 线 性 模型 参数 估计 中 单位 权 方 差 的 估 
А3009 — 1099 ( 王 新 洲 , 1997, 1999, 2000). FPE . 徐 望 国 等 根据 非 线性 模型 参数 估计 应 该 
不 对 非 线性 模型 线性 近似 , 而 应 该 直接 解 算 非 线性 目标 函数 这 一 宗旨 , 讨论 了 目标 函数 的 常 
用 算法 一 一 迭代 法 和 非 线性 目标 函数 的 最 优 算法 不 依赖 函数 导数 的 多 维 轮 环 搜索 法 和 
基于 差分 理论 的 迭代 算法 (4 (FAE, 徐 望 国 等 ,2001) 

本 书 在 全 面 总 结 这 些 癸 究 成 果 的 基础 上 , 又 增加 了 笔者 最 新 的 研究 成 果 . 希望 本 书 在 测 
量 数 据 处 理 方面 能 起 到 抛砖引玉 的 作用 . 
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二 章 ” 非 线性 模型 非 线 性 强度 的 度量 


第 一 节 ” 非 线 性 强度 的 概念 


在 测量 数据 处 理 中 , 我 们 熟悉 的 线性 观测 方程 的 一 般 形式 为 
Li= bazit бох; Ж + bari t bwt А, (i=1,2,.,n) 
其 矩阵 形式 为 
І = ВХ +Ву+А (2-1-1) 
аф. = (1 La з 1.) Anxi 的 观测 向 量 ;n 为 观测 值 的 个 数 ;X 为 : x 1 的 未 知 
参数 向 量 ;: 为 必要 观测 的 个 数 ; Bo= (Ва Bo … Во.) 为 n Xx1 ВЖ Ё; Д = (Д, 
А; … An) 为 n x 1 的 观测 误差 向 量 ;B 为 n x1 的 设计 和 矩阵 , 即 


bl bn 7 бү, 
B= bzi ба КЕ bzi 
bni bn2 aa бы 


比如 水 准 测量 中 , 当 不 设 尺度 比 参数 , 且 以 待定 点 高 程 为 未 知 参数 时 , 其 观测 方程 就 是 
(2-1-1) 式 所 示 的 线性 形式 . 然而, 测量 中 更 多 的 观测 方程 是 非 线 性 方程 . 比如 导线 测量 中 ， 
以 待定 点 坐标 为 未 知 参数 的 角度 观测 方程 和 边 长 观测 方程 分 别 为 
В: = arctan Ук 一 arctan 2i + Ag 
Tk -Tj Th Tj i (2-1-2) 
5; = (zh =a) + (ур уу)* + Аз, 
它们 都 是 待定 点 坐标 ( ri, y;) 的 非 线 性 函数 . 又 如 在 GPS 伪 距 测量 中 , 第 ; 颗 卫 星 至 测 站 上 
的 几何 距离 的 观测 方程 为 
pi= rT) + (ув у) + (р ) + сё + A (2-1-3) 
也 是 测 站 点 的 待定 坐标 (zx, у, zx ) 的 非 线性 函数 . 一 般 地 , 用工 表示 x 1 的 观测 向 量 ， 
用 X 表示 :x1 的 未 知 参数 向 量 ,用 A 表示 nn x 1 的 观测 误差 向 量 , 则 非 线 性 观测 方程 可 写 
为 








L=/f(X)+A (2-1-4) 
式 中 , f(X)=(f1(X) SAX) … AX EB n 个 X 的 非 线 性 函数 组 成 的 " x 1 的 
向 量 , (2-1- 4) 式 就 是 我 们 所 要 讨论 的 一 般 非 线性 模型 
为 了 推导 公式 方便 , 不 失 一 般 性 , 设 Т, 为 同 精度 独立 观测 值 . 
关于 模型 (2-1-4) 的 参数 估计 , 传统 的 方法 是 将 其 线性 化 , 即将 (2-1-4) 式 在 参数 的 近 
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似 值 Xe 处 展 为 泰勒 级 数 , 并 仅 取 至 一 次 项 .然后 再 应 用 线性 模型 参数 估计 理论 进行 参数 估 
计 . 将 非 线性 模型 (2- 1-4) 式 线性 化 , 因 略 去 了 二 阶 以 及 二 阶 以 上 各 高 次 项 , 得 到 的 仅 含 一 次 
项 的 线性 模型 显然 是 原 模型 的 近似 模型 . 因此 , 我 们 以 后 将 传统 线性 化 称 为 线性 近似 . 由 于 
线性 近似 后 得 到 的 线性 模型 是 近似 模型 , 所 以 线性 近似 必然 会 产生 模型 误差 . 从 下 面 两 个 例 
子 可 清楚 地 看 到 这 一 点 . 

例 2-1-1 已 知 非 线性 模型 为 L= түе». 其 中 参数 r 和 x, 的 真 值 为 X = 
(5.420136187 -0.25436189) .7 的 5 个 真 值 (用 参数 的 真 值 X 算得 ) 和 相应 的 5 个 同 精 
度 独 立 观测 值 列 于 表 2-1-1. 


表 2-1-1 L; 的 真 值 和 相应 的 观测 值 


phe a 


4.202834 3.258924 2.527006 









1.959469 





1.519394 





4.20 3.25 2.52 1.95 1.51 





观测 值 的 中 误差 co = + 0.007833, 观测 方程 为 


L= xie" + А, 


L= тое + А, 
L3= түе? + А, 
Ls= лүе + A; 
І5= хез + А; 
取 参 数 X 的 近似 值 为 Xo= (xo т) = (5.4 -0.3) .将 观测 方程 在 Х 处 线性 近似 , 得 
误差 方程 
0.7408 4.0004 0.1996 
0.5488 5.9272 гаг 0.2864 
Ү= Вах +/= 10.4066 6.5864 | nj- 0.3245 
0.3012 6. 5058 0.3236 
0.2231 6.0245 0.3051 
根据 最 小 二 乘 原理 ,得 dX 的 最 小 二 乘 估计 为 
_ —0.005858021 
| -| 0 009959787) 


于 是 ,参数 X 的 最 小 二 乘 估 值 为 
X = Xo+dX= | 


参数 估 值 文 的 真 误差 为 


5. 29114199 
- 0. 250246213 


-0. 02599200 
0.004315680 
| АХ || =0.02631801 
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参数 估 值 文 的 真 误差 AX 主要 由 两 种 误差 引起 . 一 种 为 观测 误差 ; 另 一 种 为 线性 近似 
所 引起 的 模型 误差 . 
由 于 观测 值 的 中 误差 为 co = 上 0.007833, 而 参数 估 值 的 协 因数 阵 为 
3.3738685 70-23770) 
-0.2377004 0.0225226 
故 由 观测 误差 引起 的 参数 估 值 的 中 误差 分 别 为 
о; = +0.014388, о; = +0.001176 





Qg =(B'B) '= 


于 是 有 | 人 GE - 1,807, 12021 = э. вто, 即 参数 估 值 的 实际 误差 大 约 是 其 中 误差 的 2 


[о; | [| 


倍 .这 说 明 此 例 中 由 线性 近似 所 产生 的 模型 误差 大 于 、 等 于 由 观测 误差 所 引起 的 误差 . 


2 
例 2-1-2 已 知 非 线性 模型 为 L; = 7! + г. 其 中 参数 的 真 值 仍 为 X= (5.420136187 
– 0.25436189)', L; 的 5 个 真 值 和 相应 的 5 个 同 精度 独立 观测 值 列 于 表 2-1-2. 





表 2-1-2 L, 的 真 值 和 相应 的 观测 值 
一 人 TU 
і 1 2 3 4 5 
-| + -十 
真 值 29.123514 14.434576 9.538264 7.090107 5.621213 
观测 值 29.12 14.43 9.53 7.09 5.62 




















观测 值 的 中 误差 为 co = + 0.004540, 仍 取 参 数 的 近似 值 为 Xo= (xo то) = (5.4 
-0.3) ,相应 的 观测 方程 为 





Ls= + r + As 
在 Xe 处 线性 近似 ,得 5 个 误差 方程 为 
10.8 1 0.26 
5.4 1 0.15 
У= ВаХ+/і= | 3.6 1!4Х- | 0.11 
2.7 1 0.10 
2.16 1 0.088 








Ferna өн ии ыл 
ах 的 最 小 二 乘 估计 为 





| 0. 2007018. 
0.042922386 


于 是 
_ 5.420007626 
文 = Xo+dX= 
—0.257077610 
X 的 真 误差 为 
Ат, | 一 0， 000128361 | 
АХ = = 
Ах! \ -0.002715720 








| АХ || =0.00271876 
显然 , 本 例 中 文 与 其 真 值 的 距离 比例 2-1-1 FX 与 其 真 值 的 距离 要 小 一 个 数量 级 . 
因为 区 的 协 因数 阵 为 Qee = (BB)-!= | 0.020369718 —0.10046345 


-0.10046345 0.695485744 
所 以 参数 估 值 的 中 误差 为 
о; = +0.000648, о; = + 0.003786 


А 
Anl 0. 198, 2921 
lo; | 








Д = 0.717. 即 参数 估 值 的 实际 误差 比 中 误差 要 小 . 这 说 明 此 例 中 
由 线性 近似 所 产生 的 模型 误差 可 忽略 不 计 ， 

例 2-1-1 和 例 2- 1- 2 的 观测 精度 基本 相同 , 参数 的 真 值 和 其 相应 的 近似 值 也 相同 ,但 例 
2-1-1 中 参数 估 值 的 精度 却 远 远 低 于 例 2. 1-2 中 参数 估 值 的 精度 . 其 原因 主要 是 例 2-1-1 
线性 近似 时 引起 了 较 大 的 模型 误差. 而 例 2- 1- 2 线性 近似 时 引起 的 模型 误差 较 小 , 可 忽略 不 
+. 

为 什么 不 同 的 非 线性 模型 线性 近似 时 会 引起 不 同 的 模型 误差 昵 ? 这 是 因为 不 同 的 非 线 
性 模型 的 “ 非 线性 "程度 不 一 样 “ 非 线性 "程度 越 强 , 线性 近似 时 产生 的 模型 误差 就 越 大 . 非 
线性 模型 的 “ 非 线性 "程度 , 称 为 非 线性 强度 (Non-linearity) . 显然, 非 线性 强度 越 强 , 线性 近 
似 时 产生 的 模型 误差 就 越 大 . 因此 , 一 个 非 线性 模型 ,采用 线性 近似 的 方法 进行 参数 估计 时 ， 
参数 估 值 的 精度 很 大 程度 上 取决 于 该 模型 的 非 线性 强度 


第 二 节 ” 非 线 性 强度 的 度量 


一 .固有 曲率 和 参数 效应 曲率 


不 同 的 非 线 性 模型 具有 不 同 的 非 线 性 强度 .而 非 线 性 强度 直接 影响 线性 近似 的 效果 .为 
了 评价 线性 近似 的 优 劣 程度 , 就 需要 定义 一 个 数量 指标 来 度量 非 线 性 强度 . Beale 1960 FE 
义 了 四 种 曲率 度量 24 ( 韦 博 成 , 1989), 其 中 基本 的 一 种 为 
o _ {/(Х)-/‹Х)-в(Х)(х-Х)у|? 
| FACX)- F(X) | 





(2-2-1) 
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引线 性 模型 非 线 性 强度 的 度量 








ду fa fi 
JTI dX2 дух, 
afz 9» .. ?fz 


式 中 ; B(X)= |221 222 дт, (2-2-2) 
dfan Ifa 9fn 
Iz, 923 oz x-x 

х 为 线性 近似 后 得 到 的 参数 估 值 . 

(2-2-1) 式 中 分 子 为 F(X) ~ f( 义 ) 的 展开 式 中 除去 线性 项 以 外 的 各 项 . 分 母 包括 了 展 
开 式 的 所 有 余 项 . 显然 ,车 F(X) 是 X 的 线性 函数 , 则 分 子 为 零 ,有 N =0, 否则 №520. ВІ, 
由 №320 可 以 判断 /(X) 是 否 为 非 线 性 函数 , 且 N 越 大 , 非 线性 越 强 . 

此 定义 尽管 很 直观 ,但 没有 揭示 "“ 非 线性 ”这 一 概念 的 本 质 . 直到 1980 年 , Bates 和 Watts 
受到 Efron 统计 曲率 定义 的 启示 , 才 从 微分 几何 的 观点 出 发 ,定义 了 非 线 性 模型 的 固有 曲率 
(Intrinsic Curvature) 和 参数 效应 曲率 (Parameter-effects Curvature). 他们 的 定义 不 仅 反 映 了 
模型 的 本 质 , 而 且 计算 也 比 (2-1-1) 式 简单 2 ( 韦 博 成 ,1989). 现 介绍 如 下 : 

设 非 线性 模型 (2-1-4) 式 关于 X 的 二 阶 以 上 连续 导数 存在 . 现 考虑 参数 空间 多 中 过 Xo， 
并 以 为 方向 的 一 条 直线 4 D7 (ER, 1989): 

Х(&)= Хо+ БА 
其 中 :6 为 实 参数 ;h 为 固定 方向 . ! 通过 7= /(X) 映 射 到 样本 空间 R” 中 解 轨 迹 x 上 的 一 条 
曲线 C 为 





7= 1. (6) = /( Хе + bh) 
这 条 曲线 称 为 提升 线 (Lifted Line), 8 2-2-1. 





图 2-2-1 


由 于 
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参数 估计 理论 与 应 用 


(2-2-3) 





Ф 


= [з а: |, dz|, 
{х1 db аё db 


= (hi h2 23У. hiy 
В= (0) n xi WER, 由 (2-2-2) 式 定义 , W = (ws) 为 n xtX t 的 立体 阵 (Array) 
(关于 立体 阵 的 有 关 知 识 详 见 附录 А). 由 (2-2-2) 式 所 定义 的 导 函 数 和 矩阵 再 对 X 求 偏 导数 
而 得 , 该 立体 阵 的 第 & 层 由 下 式 定 义 : 

















2? fr 2? fy 2? у, 

Ir? дх\дх› дх\дх, 

of Pho Pf 

Wi= |9xzzgzl 25 дэд, (2-2-4) 
3? fe д? fy д? fy 
дт,дх\ дх,дх»› Jr? x=% 
于 是 (2-2-3) 式 可 写成 

д _ x 

db 一 2 brhi 

а уь hAg (2-2-5) 
人 

k=1,2,.…,n 

、 a . a7. P 
提升 线 C, Wh 方向 的 前 二 阶 导数 轧 = In = r 分 别 为 : 

т, = ВА, v=h Wh (2-2-6) 


当 5=0 时 ,(2-2-6) 式 对 应 于 点 Xo AP p 对 6 О рь 称 为 加 速度 向 量 , 它 可 
分 解 为 三 个 分 量 , 即 垂直 于 切 平面 的 法 分 量 т. 在 切 平面 上 平行 于 切线 方向 p 和 垂直 于 切 
线 方向 办 的 两 个 分 量 闪 和 鸡 . 切 平面 的 两 个 分 量 多 ЖЛ, 构成 切 分 量 丈 , 故 有 
ъ= йү = + (2-2-7) 
(2-2-7) 式 中 分 量 次 是 由 于 解 轨 迹 沿 法 方向 弯曲 而 引起 的 ; 分 量 у 则 是 由 于 切 平面 
上 沿 着 h 方向 及 其 垂直 方向 的 不 均匀 性 而 引起 的 .于 是 非 线性 模型 (2-1-4) 式 沿 h 方向 在 
Xo 处 的 固有 曲率 КУ 和 参数 效应 曲率 Ki 分 别 定义 为 
KN = | VÀ l Далв) |. 
ЇЇ? „ВВА 
KT = | ГА ll Lawa)" | 
l a 1? h B'Bh 
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RPR WAN 和 (h Wh) Т А Wa 的 法 分 量 和 切 分 量 .在 Х 处 所 有 可 能 方向 中 
最 大 的 那个 固有 曲率 和 最 大 的 那个 参数 效应 曲率 定义 为 非 线性 模型 (2-1-4) 的 最 大 固有 曲 
率 和 最 大 参数 效应 曲率 , 即 
| 
i (2-2-9) 
К? = max Ki 
固有 曲率 K 是 一 个 不 依赖 于 坐标 选择 的 不 变量 . 由 于 它 与 参数 的 选择 无 关 , 只 取决 于 
模型 本 身 的 固有 性 质 , 因此 称 它 为 固有 曲率 . 而 КГ 则 与 参数 的 选择 有 关 , К 不 仅 由 模 
型 本 身 决 定 , 而 且 还 强烈 地 依赖 于 参数 的 选择 , 所 以 称 其 为 参数 效应 曲率 5 ( 韦 博 成 ， 
1989). 
在 固有 曲率 和 参数 效应 曲率 的 定义 式 (2-2-8) 中 ,h 表示 方向 向 量 . 计算 时 可 以 取 单 位 
向 量 或 其 他 方便 的 形式 . 


二 方向 上 国有 曲率 和 参数 效应 曲率 的 计算 


车 直接 按 定义 式 (2-2-8) 式 计算 h 方向 上 的 固有 曲率 和 参数 效应 曲率 , 需要 涉及 立体 
阵 的 运算 .尽管 附录 A 中 (A-5) 式 提供 了 向 量 r Wa 的 计算 公式 , 然而 公式 比较 复杂 , 事先 
必须 先 计 算出 立体 阵 W. 立体 阵 W 不 仅 书 写 困 难 , 而 且 立 体 阵 的 运算 容易 出 错 . 因此 , 有 必 
要 在 实际 计算 中 设法 避免 立体 阵 的 运算 . 
为 此 ,我 们 将 F(X) 对 X 的 二 阶 偏 导数 重新 排列 , 将 其 排 为 一 个 я x a 的 矩阵 C; 而 将 
4х2, ,dzr?, dridzr2，…, ах, idr 用 一 个 a 维 向 量 h? 表示 . 即 令 
h? =dX? = (dz, 425, =, dr?, dridr2, ‘агг, dr2dr3, ydz idzr 






































= (А2, А2, =, А2, hihat, hih haha, ,hiih,) (2-2-10) 
ә, PA of 2 дуу А Ffi 2 Pf 2 fi 
д2? дт$ дт? дх\дхт2 Ir IT, IT T3 IT-19 x; 
Ph Ph дї}, Ph o d fa Pfa 2 2? fa 
С = д2? дт$ дт? дхудтэ Irr, OXr2073 дж, -10.х, 
Pfa Pfr 02, y Pfa h „_%Һ 227, 
Jx? əx? ðr? “дхдх› дх\дт, 972973 ozr-1l97 ү + 
` ~o 
(2-2-11) 
RP: а= (+1) (2-2-12) 
于 是 下 列 等 式 成 立 : 
Ia = АМА = Ch? (2-2-13) 


证 明 : 设 
B=h Wh, у = СА? 
由 附录 A 中 (A-4) 式 知 
B= (X > т, 2 2 ТЗЭ Washihy) 


i=l j= 
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则 


顾及 (2-2-4) 式 ,得 














3? fy 24 3? fa 2? fy 3? fy Bfr a 
++ + hahi + ht 
Вь = 222" + 了 2 РЕР 1h, дт›дх 2h, ду? 2 
А Pf Pfa Pfr, 2 
+e t 一 一 全 +o +a 
+ одзади 2 дуду Jr, Jra”? әх?! 





д? д? 
因为 2 人 hh = h h;hi, 所 以 
if Tj 2392; 





p= Dt 
而 根据 (2-2-10) 式 和 (2-2-11) 式 有 





所 以 (2-2-13) 式 成 立 . 
于 是 (2-2-8) 式 可 写 为 


gN = {СС )^ а || 
h k'B'Bh к 


(С, СА?)Т 
Ка = k'B'Bh =} БББк вн 
根据 (2-2-13) 式 , 可 以 将 提升 线 GC 沿 h ЈО р 表示 成 一 个 n x a ЕЕЕ 
一 个 a 维 向 量 的 乘积 .有 了 后 , 还 必须 计算 p 的 法 分 量 功 和 切 分量 忒 .为 此 ,将 由 B Ж 
成 的 投影 矩阵 记 为 Sr, 并 记 Sv = 1- Sr, 于 是 有 





(2-2-14) 


“т А 
ДП = Sm 
И " - | (2-2-15) 
Dh = 5м), = Ma T 
式 中 : 
Sr=B(B'B)-'B’ 
(2-2-16) 
Sy 三 了 一 Sr 


ET (2-2-13) R, (2-2-14) RM (2-2-15 RE, 就 很 容易 按 (2-2-8) 式 计算 非 线性 模型 
h 方向 上 的 固有 曲率 KX 和 参数 效应 曲率 KK/ 了 .其 计算 步骤 如 下 : 

(1) 适当 选取 参数 的 近似 值 Xo, 在 Xo 处 将 非 线 性 函数 展 为 泰勒 级 数 , 取 至 二 次 项 .并 
用 Xo 按 (2-2-2) 式 和 (2-2-11) 式 计算 一 、 二 阶 偏 导 数 阵 B ЖС. 

(2) EMER a, 并 按 (2-2-6) 式 的 第 一 式 和 (2-2-13) 式 计算 沿 a 方向 的 前 二 阶 导数 冰 
ЖП 5. 

(3) 按 (2-2-16) 式 的 第 一 式 计算 投影 矩阵 Sr. 

(4) 按 (2-2-15) 式 计算 p ИТЕ у 和 法 分 量 苏 . 

(5) 按 (2-2-14) 式 计算 沿 h 方向 的 固有 曲率 KA 和 参数 效应 曲率 Kj. 

例 2-2-1 计算 例 2-1-1 中 的 非 线性 模型 沿 A 方向 的 固有 曲率 和 参数 效应 曲率 
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( 取 h=dX). 
由 例 2-1-1 知 

0.7408 4.0004 
‚54 ‚9272 

0.5488 5 — 0. 005858021 

B= 10.4066 6.5864|, ах = = 

0.049953787 
0.3012 6. 5058 
0.2231 6.0245 


W л2= (^2 h? hih2) = (0.000034319 0.002495381 –0.000292630)' 
Әр Pf 2°, 














дхї{ dri “9x1972 0 4.0004 1.4816 
2р Pfa z д? fa 0 11.8543 2.1952 
С=|дхї{ 922 “9x1972 = |0 19.7593 2.4394 
: : : 0 26.0232 2.4096 
Pfs fs 22; 0 30.1226 2.2313 
Ir? Ix? дх\дх› х= Ху 
0.7408 4.0004 0.1955 
0.5488 5.9272 |, 0.2929 
- 0.005858021 
уһ = Bh = |0.4066 6.5864 п РО, = [0.3266 
0.3012 6.5058 0.3232 
0.2231 6.0245 0.2996 
0 4.0004 1.4816 0.0095 
0 11.8543 2.1952|({ 0.000034] 10.0289 
n = СА?%= |0 19.7593 2.4394] | 0.002495! = [0.0486 
0 26.0232 2.4096| 0.000293! 10.0642 
0 30.1226 2.2313 0.0745 
由 例 2-1-1 知 
КО 3.3737 -0.2377 
(BB) != | 
-0.2377 0.0225 
故 
0.8030 0.3401 0.0632 -0.0931 -0.1726 
0.3401 0.2610 0.2000 0.1531 0.1171 
5;= В(В'В) В’ = | 0.0632 0.2000 0.2617 0.2779 0.2682 
-0.0931 0.1531 0.2779 0.3278 0.3331 
0.1726 0.1171 0.2682 0.3331 0.3464 
于 是 
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0.8030 0.3401 0.0632 -0.0931 -0.1726||0.0095 0.0017 
0.3401 0.2610 0.2000 0.1531 0.1171 | 10.0289 0.0390 
n=| 0.0632 0.2000 0.2617 0.2779 0.2682 | /0.0486 | = 10.0569 
-0.0931 0.1531 0.2779 0.3278 0.3331 | [0.0642 0.0629 
-0.1726 0.1171 0.2682 0.3331 0.3464) (0.0745 0.0620 




















0.0078 
-0.0101 
К = a -m= | – 0.0083 
0.0013 
0.0125 
所 以 
к} = -0-000390 =0.0465, KY = 0.012855 一 0.2638 
例 2-2-2 计算 例 2-1-2 中 的 非 线性 模型 沿 л 方向 的 固有 曲率 和 参数 效应 曲率 . 
10.8 1 
5.4 1 
由 例 2.1.2 知 :B= |3.6 1|, 取 h=| 000858021 
57 1 0.049953787 
2.16 1 
则 h?=(h? h? hih2) =(0.000034319 0.002495381 – 0.000292630)' 
Pfi Pfi Pfi | 
Jri Ix? “了 2 0 0 
Pfa Ph р 1 оо 
С= (9:1 дт; Irr? = 10.6667 0 0 
: : : 05 0 0 
fs fs а? fs 0.4 0 0 
Ir? Jr? дтүдт› х=х, 
10.8 1 – 0.0133 
5.4 1 0.0183 
– 0.005858021 
= В = | 3.6 1 0 049953787/ = 0.0289 
2.7 1 0.0341 
2.16 1 0.0373 
2 0 0 0.0000686 
1 0 0 0.000034319 0.0000343 
ў = Ch? = |0.6667 0 0 0.002495381 | = !0.0000229 
0.5 0 0j -0.000292630 0.0000172 
04 0 0 0.0000137 
由 例 2-1-2 知 
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0.0204 一 0. 1005 


(ВВ) ‘= 
-0.1005 0.6955 / 

故 
0.9042 0.2571 0.0415 -0.0664 -0.1311 
0.2571 0.2050 0.1876 0.1789 0.1737 
Sr=B(B’B) !В'= | 0.0415 0.1876 0.2363 0.2606 0.2753 
-0.0664 0.1789 0.2606 0.3015 0.3260 
-0.1311 0.1737 0.2753 0.3260 0.3556 

于 是 





0.9042 0.2571 0.0415 -0.0664 -0.1311110.00006861 [0.0000689 
0.2571 0.2050 0.1876 0.1789 0.1738| |0.0000343| !0.0000344 
57 | 0.0415 0.1876 0.2363 0.2606 0.2753 | |0.0000229| = |0.0000229 
-0.0664 0.1789 0.2606 0.3015 0.3260 10.0000172| [0.0000172 
-0.1311 0.1737 0.2753 0.3260 0.3556) (0.0000137) 10.0000137 
-1.0х107' 
-1.0x1077 
次 0 
0 
0 
所 以 
кў = 22240 "0.000036, КТ = > ШЕЕ "0.0213 


由 计算 知 , 例 2-1-2 中 的 非 线 性 模型 的 固有 曲率 和 参数 效应 曲率 都 远 远 小 于 例 2-1-1 
中 的 非 线性 模型 的 固有 曲率 和 参数 效应 曲率 . 所 以 例 2- 1-2 中 线性 近似 所 引起 的 模型 误差 
小 于 例 2-1-1 中 线性 近似 所 产生 的 模型 误差 . 


第 三 节 曲率 立体 阵 


前 节 定 义 的 非 线 性 模型 的 固有 曲率 和 参数 效应 曲率 , 都 与 方向 向 量 h 有 关 . 能 否 引 进 
一 些 量 , 使 它 既 能 刻画 非 线 性 模型 的 本 质 , 又 与 方向 向 量 h 无 关 呢 ? 本 节 要 介绍 的 曲率 立 
体 阵 就 是 如 此 . 


一 曲率 立体 阵 的 定义 

当 我 们 用 参数 的 近似 值 X。 ВЕ B 时 , В 矩阵 的 列 向 量 就 是 Xo 处 切 空间 的 一 组 

基 . 现 对 这 组 基 进 行 变换 , 将 其 变换 为 一 组 标准 正 交 基 . 为 此 , 可 对 В 的 列 向 量 进行 正 交 化 ， 
即 对 和 矩阵 B 进行 QR 分 解 24( 韦 博 成 , 1989 ) 

К 

B=(Q.N)| =ar (2-3-1) 

其 中 Q 和 NN 的 列 向 量 分 别 为 X。 处 切 空间 的 一 组 标准 正 交 基 和 法 空间 的 一 组 标准 正 交 基 . 
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к 为 非 退化 上 三 角 阵 . 
这 个 正 交 化 过 程 相当 于 对 参数 X 进行 了 一 个 变换 : 
p=R(X- Ху), X= Хо+ Mp, М = В! (2-3-2) 
О 的 列 向 量 就 是 切 空间 关于 新 坐标 yg 的 一 组 标准 正 交 基 . 这 是 因为 此 时 7= 7(p) = 
f(Xo+t Мо), В. 





вр 
21.97 0X_pM=Q (2-3-3) 
现在 再 在 p 坐标 和 标准 正 交 基 下 来 推导 固有 曲率 和 参数 效应 曲率 . 为 此 , 求 n= 7(p) 
关于 р 的 二 阶 导数 , 由 (2-3-2) 式 知 , p 是 X 的 线性 函数 , 故 有 
улул 9® длу дн 


дф„дф, дт{дхт;дф, дф, 
式 中 :rsy=1,2, ,4 一 1, 2 e,n. 
令 
2 3 
U= = МҰМ (2-3-4) 

дф? 

AP: U 为 n xex 阶 立体 阵 , Вр 
22 у, 


О= (иы), иы = (2-3-5) 


9 pi9 pj 
经 过 (2-3-2) 式 的 变换 , 参数 空间 中 过 Xo 以 h 为 方向 的 直线 X= Xo+ bh 变 为 
p= R(X- Хь) = R(Xo + bh — Ху) = ЬЕР = bd 
式 中 ;qd = Rh 为 方向 向 量 . 而 提升 线 变 为 py = f(bd), 且 对 应 于 p =0. 可 见 , 通过 变换 ， 
(2-2-8) 式 中 的 B, W, h 分 别 变 为 Q, U Md. Ра 为 单位 向 量 , 将 (2-3-3) 式 和 
(2-3-4) 式 代 人 (2-2-8) 式 ,得 o 坐标 下 沿 4 方向 的 曲率 为 
KJ = || (d'Ud)" |, KẸ = 10404) || (2-3-6) 
由 (2-3-3) 式 和 (2-3-1) 式 知 , Q 和 N 的 列 向 量 分 别 生成 解 轨迹 在 w = 0 处 的 切 空间 和 
法 空间 . 因此 , 相应 的 投影 矩阵 Sr 和 Sw 可 分 别 表示 为 
ST= QQ’, S= ММ” (2-3-7) 
于 是 有 
(d’Ud)T= (QQ’)(d’‘Ud) | 
利用 矩阵 与 立 阵 的 方 括号 乘积 , 即 附录 中 的 (A-8) 式 及 其 性 质 7 和 性 质 10, 有 
(dUd)? =[QQ Id Ud]=[Q]L[Q [d Ud] ]= [Q] QR ]LU]d] 
因为 Q 是 正 交 和 矩阵, 所 以 有 QQ = 工 .于 是 根据 向 量 范 数 ( 欧 氏 范 数 ) 的 定义 可 得 ; 
1 (40а) | = 1419 val 
同 理 可 得 
1 00а) = а {М1 1а | 
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即 
KY= IN Ua) 
тыр огун | (2-3-8) 
Ка= |4 [N 1] || 
根据 (2-3-8) 式 , 我 们 给 出 下 列 定义 24 ( 韦 博 成 , 1989). 
定义 2-3-1 非 线 性 模型 (2-1-4) 式 的 固有 曲率 立体 阵 С 和 参数 效应 立体 阵 H 分 别 定 
义 为 
СА[М ЦО] 
Palou] (2-3-9) 
式 中 :6G Aln- 1) хаха 的 立体 阵 ;日 Hex 的 立体 阵 .它们 仅 与 模型 及 参数 有 关 , 而 
与 方向 4 无 关 . 


二 、 曲 率 立 体 阵 的 计算 


由 前 面 的 推导 知 , 计算 曲率 立体 阵 的 关键 是 B 矩阵 的 QR 分 解 . B 矩阵 列 满 秩 时 ， 
BB 为 正定 阵 .于 是 根据 乔 勒 斯 基 ( Cholesky) 分 解 , 可 得 . 


ВВ= ТТ 
式 中 :T 为 上 三 角 阵 , HERLEI h КИИЗ (Е, 1991). 
іе Sbi 
pabi (j>i=1) (2-3-10) 
T ta 
ta = lbu- 1/2, 


га G>i>1), (2-3-11) 
(b; 一 У) tuta) 
1, = k=l 
li 
式 中 ;6b; 为 正定 阵 B'B 的 第 i 行 第 ; 列 元 素 , B BB = (6). 
求 得 上 三 角 阵 T 后 , 由 下 式 可 得 B 的 QR 分 解 : 














B=(BT ÐT 
Q= BT-! | (2-3-12) 
R=T 
至 于 N 和 矩阵 , 可 根据 正 交 条 件 求 出 . 
i 1 3 
例 2.3-1 ' 设 某 非 线性 模型 的 矩阵 в MEW 分 别 为 :B= |-2|1, W= |121, 求 其 曲 
2 1 
率 立 体 阵 ， 
因为 n=3,1=1, 所 以 有 ВВ = 9. 
1 
由 (2-3-10) 式 得 , T=3, 所 以 T=. Ж ОВТ! т -2},R=3, M= T"! 
2 
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3 
л N12 

设 N= |nz лә |, BEZZI ОМ =0,М М = 了 可 得 : 
пэ Л 32 








п 一 2721 十 2731 =0 
пі 2по + 2пз = 0 
пл + л =1 (2-3-13) 


п + п + п = 1 





пилу + поп + пулу = 0 


Фо nn=0.1, 由 (2-3-13) 式 的 第 一 式 和 第 三 式 可 解 得 n, = 0.728118, пз = 0.678118, 再 由 
(2-3-13) 式 的 第 二 式 、 第 四 式 和 第 五 式 可 解 得 
піз = 0.937491, пә =0.159373 ma = – 0.309373 





于 是 

0.1 0.937491 
0.728118 0.159373 
0.678118 -0.309373 
所 以 由 定义 (2-3-9) 式 得 


М = ，LUJ = M WM = 


1 
3 

















0.1 0.937491 | 3 
1 1 [2.434354 
G= | [0.728118 0.159373 二 |2|| = 一 
9 9 12.821846 
0.678118 0.309373 1 
1 3 
iii 1 -l 
Н= 1-2 9 12 1=27 








2 1 
显然 , 当 观 测 值 的 个 数 x АТ В е 较 大 时 , 曲率 立体 阵 的 计算 很 复杂 . 这 时 
可 采用 专门 的 计算 机 程序 计算 . 














第 四 节 ” 非 线性 模型 线性 近似 的 容许 曲率 


由 于 不 同 非 线 性 模型 的 固有 曲率 和 参数 效应 曲率 不 同 , 有 的 较 小 , 即 非 线性 强度 较 弱 ; 
有 的 较 大 , 即 非 线性 强度 较 强 . 因此 ,有 的 非 线 性 模型 线性 近似 时 只 产生 较 小 的 模型 误差 , 得 
到 令 人 满意 的 结果 .而 有 的 非 线性 模型 对 参数 的 近似 值 十 分 敏感 , 线性 近似 时 会 产生 较 大 的 
模型 误差 .还 有 些 非 线性 模型 甚至 不 能 线性 近似 , 既然 有 的 非 线性 模型 可 以 线性 近似 , 有 的 
则 不 行 , 那么, 如 何 判断 一 个 非 线性 模型 可 否 线性 近似 呢 ? 下 面 就 来 讨论 这 个 问题 . 


一 、 非 线性 模型 线性 近似 的 容许 曲率 39 ( 王 新 洲 , 1997) 


将 非 线性 模型 (2-1-4) 式 在 Xo 处 线性 近似 , 得 
Ге (Хо) + В(Х- Ху) +4 (2-4-1) 
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相应 的 误差 方程 为 : 
у= Вах +1 | (2-4-2) 
式 中 : аХ= Х -Xə = (Хо) - 1. 
在 假定 A 相互 独立 且 服 从 六 (0， o Qu) BANHE F: 
ACX) СХ) [|?==(Х-Х)В'(Х)РВ(Х)(Х-Х) 
于 是 , 统计 量 
K = (Х с ХОВ (ХОРВОО) 


因为 《9 ( 李 庆 海 , Б ЖЖ, 1982). 











Ka= УУ = 090.0) 
于 是 
кү 10-8)? 
т „ш ЕЕС ТЬ 
Ki 6'(п-—1) 15? , 
пі в?(п-1) 
(2-4-3) 
所 以 (2-4-1) 式 在 置信 水 平 (1 - a) 下 的 置信 域 为 ; 
ПАХ) АХ) 12 (X – ХУВ'(Х)РВ(Х)(Х - Х) (2.4.4) 


= 0?Е(1,п - 1) 


式 中 :* 为 未 知 参数 X 的 个 数 ;52 = УУ рга о АИА ВОХ) AIR AR НЕЕ ШИ A e 
二 乘 估 值 X 计算 出 来 的 B 矩阵 的 值 . 
置信 域 (2-4-4) 的 边界 可 以 看 成 一 个 以 /( 义 ) 为 球 心 , 以 R = р VF 为 半径 的 球面 ,其 中 


о = 6: ‚ 显然 ,这 个 球面 上 任 一 点 的 曲率 为 


KF (2-4-5) 


1 
F 

(2-4-5) 式 是 线性 近似 后 , 在 置信 水 平 1- a 下 置信 域 的 曲率 . 当 非 线性 模型 (2- 1- 4) 式 
的 解 轨迹 n= F(X) 上 Xo 处 的 最 大 固有 曲率 KN 和 最 大 参数 效应 曲率 K” 均 小 于 Kp 时 ,说 
明 解 轨迹 接近 于 线性 . 即 当 


KN< Kr= 一 二 

Е p JF 
1 (2-4-6) 

КТ< Кр= — = 

Е p VF 

成 立时 , 就 认为 解 轨迹 接近 线性 . 
令 

уйў= КВ, Y= pK (2-4-7) 


并 称 у 和 77 分 别 为 相对 固有 曲率 和 相对 参数 效应 曲率 . 简称 相对 曲率 . 仿 (2-4-7) 式 ,可 
定义 最 大 相对 曲率 为 
Гг“ =K", r" = КТ (2-4-8) 
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且 当 


1 


1 
p< —=— — 
/Е 


/Е 
成 立时 , 非 线性 模型 (2- 1-4) 式 的 解 轨迹 就 接近 线性 , 于 是 非 线 性 模型 (2-1-4) 式 就 可 以 线 
性 近似 , 否则 将 不 能 线性 近似 . 因此 , 可 定义 非 线 性 模型 线性 近似 的 容许 曲率 . 

定义 2-4-1 非 线 性 模型 (2-1-4) 式 线性 近似 的 容许 曲率 定义 为 


‚ IT< (2-4-9) 


rs= 7с (2-4-10) 


容许 曲率 Ге 也 是 一 个 相对 曲率 . 
二 ,判断 非 线性 模型 能 否 线性 近似 的 方法 


定义 了 非 线 性 模型 线性 近似 的 容许 曲率 后 , 就 能 对 任 一 非 线 性 模型 按 如 下 方法 判断 能 
否 线性 近似 . 

(1) 首 先 对 具体 的 非 线 性 模型 计算 最 大 相对 固有 曲率 TN 和 最 大 相对 参数 效应 曲率 
ГТ, ГГТ 的 计算 一 般 比 较 复杂 , 需 用 专门 的 计算 机 程序 在 计算 机 上 计算 . 

(2) 根 据 分 子 自由 度 上 ,分 母 自由 度 n-i 和 显著 水 平 a ЖЕ 分 布 表 , 得 临界 值 F. 并 按 
(2-4-10) 式 计算 容许 曲率 Га. 

(3) 检 查 (2-4-9) 式 是 否 成 立 . 若 (2-4-9) 式 成 立 , 即 ГҮ MrT 都 小 于 人 则 该 非 线 性 模 
型 可 以 线性 近似 . 如 果 (2-4-9) 式 不 成 立 , 这 时 可 能 出 现 三 种 情况 ;第 一 种 情况 , TN ЯП ГТ 都 
Ж+ Ге, 说 明 非 线性 模型 的 非 线 性 强度 很 强 , 不 能 线性 近似 . 第 二 种 情况 , TN > Ге, 而 
ГТ< Га. 说明 非 线性 模型 的 固有 曲率 很 大 , 只 是 参数 选择 较 好 . 由 于 固有 曲率 很 大 , 表明 非 
线性 模型 的 非 线 性 强度 很 强 , 所 以 仍 不 能 线性 近似 . 第 三 种 情况 , TN < Ps, 而 PT> rg. 表 
明 非 线性 模型 的 非 线 性 强度 较 弱 , 只 要 设法 对 参数 进行 变换 , 使 得 在 新 参数 下 的 参数 效应 曲 
率 小 于 容许 曲率 , 则 在 新 参数 下 可 以 对 模型 进行 线性 近似 . 

例 2-4-1 计算 例 2-1-1 和 例 2-1-2 中 两 非 线 性 模型 的 容许 曲率 . 

因为 :=2,n=5, 取 a=0.05, 则 由 下 分 布 表 "9( 李 庆 海 , 陶 本 藻 ,1982), 可 得 Е(2,3, 
0.05) ТУ 6 иинин иан АЕН 
=0. 322749 


Гұ = 7 
由 例 2-1-1 %0,3 = [УУ = +0. 0418, # p = оу =0.0418/2 = 0.0591, ME h 方向 的 


相对 固有 曲率 和 相对 参数 效应 曲率 分 别 为 
Уһ =0.0643x0.0591=0.0038 


y7 = 0.2844 х 0.0591 =0.0168 


УМ<Гж, УГ<ГҰ 


同样 由 例 2-1-1 知 ,5 = ХУ - + 0.006567, 故 p = 0.006567 /2 = 0. 009287, 于 是 沿 


һ 方向 的 相对 固有 曲率 和 相对 参数 效应 曲率 分 别 为 
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УМ = 0.00003 х 0.009281 = 2.7861 x107 <T% 
УХ = 0.008697 х 0.009287 = 8.0769 х 107°< Ге 
此 两 例 的 相对 固有 曲率 和 相对 参数 效应 曲率 都 小 于 容许 曲率 , 但 一 般 不 能 据 此 作出 能 
线性 近似 的 结论 . 这 是 因为 (2-4-9) 式 中 用 的 是 非 线性 模型 的 最 大 相对 固有 曲率 和 最 大 相对 
参数 效应 曲率 , 而 上 面 计 算 的 却 是 沿 一 特定 方向 h 上 的 相对 固有 曲率 和 相对 参数 效应 曲 
率 .要 根据 (2-4-9) 式 判断 一 个 非 线 性 模型 能 否 线性 近似 , 必须 计算 该 非 线性 模型 的 最 大 相 
对 曲率 .而 最 大 相对 曲率 计算 较 困 难 , 所 以 (2-4-9) 式 不 便于 实际 应 用 .为 此 笔者 重新 定义 了 
一 个 方便 计算 的 判断 准则 69 ( 王 新 洲 , 1997). 


三 ,判断 非 线 性 模型 能 否 线性 近似 的 实用 准则 
将 /(X) 展 为 泰勒 级 数 , 取 至 二 次 项 得 
f(X)=/(X0) + Вах + у Сах? +e 
式 中 :< 为 略 去 三 次 及 三 次 以 上 各 项 后 引起 的 误差 向 量 . 
当 /(X) 为 线性 模型 时 ,有 谊 CdX*=。=0. 于 是 有 


l AX- (Хо) – Вах |222 | сах? |? (2-4-11) 
用 观测 值 L 和 线性 近似 后 解 出 的 dX 代 和 人 (2-4-11) 式 ,得 
I - у 1222 1 сах? [2 (2-4-12) 
或 写 为 
уу | Сах? |? (2-4-12) 


(2-4-12) 式 表明 ;线性 近似 后 的 残 差 平方 和 大 于 、 等 于 略 去 二 次 项 所 产生 的 误差 向 量 的 
平方 和 . 这 是 可 以 理解 的 , 因为 Сах? 只 是 线性 近似 所 产生 的 模型 误差 向 量 , 而 V 既 包括 这 
一 模型 误差 向 量 , 又 包括 观测 误差 的 影响 .所 以 , 如 (2-.4-12) 式 不 成 立 , 就 说 明 略 去 二 次 项 产 
生 的 模型 误差 大 于 观测 误差, 此 时 就 不 能 线性 近似 . 因此 , 由 (2-4-12) 式 可 得 到 判断 非 线性 
模型 能 否 线性 近似 的 笼统 判断 准则 为 “0D( 王 新 洲 , 1999). 

Lox ligy (2-4-13) 


0] 2-4-2 根据 (2-4-13) 式 判断 例 2-1-1 MA 2-1-2 的 两 个 非 线性 模型 能 否 线性 近 


似 . 
由 例 2-1-1 知 
V=(-0.0041 0.0065 0.0021 -0.0004 -0.0055) 
又 由 例 2-2-1 知 
Сах? = (0.0095 0.0289 0.0486 0.0642 0.0745) 
于 是 


| сах? |? _ 0.012959 
УУ 0.000093 


所 以 例 2-1-1 中 的 非 线性 模型 不 能 线性 近似 . 
另 由 例 2-1-2 ЖП 





=139.3474>1 
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V=(-0.0010 0.0010 0.0049 -0.0031 -–0.0019)' 
ах? = (0.0004 0.0018 0.0009) 
而 C 已 由 例 2-2-2 算出 , 故 
Сах? = (0.0008 0.0004 0.0003 0.0002 0.0002) 
于 是 


| Сах? ||? _9.381х1077_ 
vyv = 3 oxo “0.0241<1 


所 以 例 2-1-2 中 的 非 线性 模型 可 以 线性 近似 . 
根据 这 两 个 结论 , 我 们 就 不 难 理解 为 什么 例 2-1-1 中 参数 估 值 广 与 其 真 值 X 的 距离 要 
比例 2-1-2 中 参数 估 值 Х 与 其 真 值 X 的 距离 大 一 个 数量 级 了 . 


四 、 固 有 非 线 性 性 和 参数 效应 非 线性 性 


前 已 述 及 (2-2-8) 式 揭示 了 非 线 性 模型 的 本 质 . 故 用 (2-4-9) 式 判断 非 线 性 模型 能 否 线 
性 近似 比较 全 面 , 又 能 回答 非 线 性 模型 不 能 线性 近似 的 原因 是 非 线性 模型 的 固有 特性 所 致 ， 
还 是 由 参数 选择 不 当 所 致 . 若 仅 是 非 线性 模型 的 参数 效应 曲率 较 大 , 而 固有 曲率 不 大 , 则 可 
通过 参数 变换 , 使 得 在 新 参数 下 的 参数 效应 曲率 很 小 或 为 零 . 则 在 新 参数 下 可 对 非 线性 模型 
进行 线性 近似 .而 用 (2-4-13) 式 判断 , 尽管 计算 比较 简单 ,判断 也 较 准 确 , 但 当 通过 判 斯 , 得 
出 非 线性 模型 不 能 线性 近似 时 , 却 不 能 回答 是 此 非 线 性 模型 的 固有 非 线 性 性 本 身 较 强 , 还 是 
仅 参 数 效应 非 线性 性 较 强 . 即 不 能 回答 此 模型 是 否 可 通过 参数 变换 后 再 线性 近似 . 为 了 解决 
这 个 问题 , 下面 仿 定义 固有 曲率 和 参数 效应 曲率 一 样 , 来 定义 固有 非 线 性 性 和 参数 效应 非 线 

将 сах? 投影 到 解 轨 迹 在 X= Хо 处 的 切 空间 和 法 空间 , 则 有 


Сах? = CYdX*+ стах? (2-4-14) 
RP: C= SNCiCT = S1C, BER Sy, Sr 由 (2-2-16) 式 确定 . 
证 阴 : 
CNdX*+ Стах? = (CN + СТ)аХ? = (SNC + 51С)ах? 
= ( Sn + 5т)СаХ? 
由 (2-2-16) 式 知 


Syt Sr=I 
所 以 , CNdX?*+ CTdX?= сах?, (2-4-14) 式 得 证 . 
由 (2-4-14) 式 可 得 
| Сах? | = 1 сах? + Стах? | ?< | сах? 12+ | Стах? |? 
所 以 有 
| сах? [|?:> | с^ах? |? 
| Сах? | °> || стах? |? 
将 此 式 代 入 (2-4-13) 式 , 得 固有 非 线 性 性 和 参数 效应 非 线性 性 如 下 . 
EX 2-4-2 非 线 性 模型 (2-1-4) 式 的 固有 非 线 性 性 和 参数 效应 非 线 性 性 分 别 定 义 为 


(2-4-15) 
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м LCdxX | 
уу 
т Сах? |? | 
a = VV < 1 
对 于 任 一 非 线性 模型 , 当 (2-4-16) 式 成 立时 , 说 明 非 线性 模型 的 固有 非 线 性 性 和 参数 效 
应 非 线 性 性 都 较 弱 , 此 非 线性 模型 可 以 线性 近似 , 且 线 性 近似 所 引起 的 模型 误差 向 量 的 平方 
和 小 于 等 于 残 差 向 量 的 平方 和 . 当 (2-4-16) 式 不 成 立时 , 同样 可 能 出 现 三 种 情况 :第 一 种 情 
况 ,aw>1l,a7>1. 说 明 此 非 线性 模型 的 固有 非 线性 性 和 参数 效应 非 线 性 性 都 很 强 , 即 该 非 
线性 模型 的 非 线性 强度 很 强 , 此 非 线 性 模型 不 能 线性 近似 .第 二 种 情况 , aM >1, a7<1. 说 明 
此 非 线性 模型 的 固有 非 线 性 性 较 强 , 只 是 参数 选择 得 较 好 . 由 于 非 线 性 模型 的 固有 非 线 性 性 
较 强 , 所 以 此 非 线 性 模型 仍 不 能 线性 近似 .第 三 种 情况 , NX<1,a >1. 说 明 此 非 线 性 模型 的 
固有 非 线 性 性 较 弱 , 只 要 设法 对 参数 进行 变换 , 使 得 在 新 参数 下 a7<1, 就 可 以 在 此 新 参数 
下 对 非 线性 模型 进行 线性 近似 . 
例 2-4-3 根据 (2-4-16) 式 判断 例 2-1-1 和 例 2-1-2 中 的 两 个 非 线性 模型 能 和 否 线性 近 
似 . 例 2-4-2 已 算出 Сах Жуу, Щщ [2-2-1 Ж 
0.8030 0.3401 0.0632 -0.0931 -0.1726 
0.3401 0.2610 0.2000 0.1531 0.1171 
Sr=| 0.0632 0.2000 0.2617 0.2779 0.2682 
0.0931 0.1531 0.2779 0.3278 0.3331 
0.1726 0.1171 0.2682 0.3331 0.3464 





а 


(2-4-16) 








于 是 
Стах? = SCdX? 
= (0.0017 0.0390 0.0569 0.0629 0.0620) 
Сах? = сах? - стах? 
= (0.0078 -0.0101 ~ 0.0083 0.0013 0.0125) 
故 
а“ | СХах2 ||? _ 0.0004 
vv 0.000093: 190121 
т Т 2 2 
= САХ 17 20.0126. = 135.0743 >1 


此 例 的 非 线性 模型 固有 非 线 性 性 较 强 , 参数 效应 非 线性 性 更 强 , 故 不 能 线性 化 . 
再 看 例 2-1-2 中 的 非 线性 模型 ,由 于 VV Сах? 已 由 例 2-4-2 算出 ,而 由 例 2-2-2 
有 
0.9042 0.2571 0.0415 —0.0664 —0.1311 
0.2571 0.2050 0.1876 0.1789 0.1737 
ST=| 0.0415 0.1876 0.2363 0.2606 0.2753 
-0.0664 0.1789 0.2606 0.3015 0.3260 
~ 0.1311 0.1737 0.2753 0.3260 0.3556 
:СТах? = 5т1сах? = (0.0008 0.0004 0.0003 0.0002 0.0002) 
49 





有 EREE 到 参数 估计 理论 与 应 用 
CNdX2=CdX2z-CrdxX=(0 0 0 0 0) 
N 2 j2 
aN = Leax i =0<1 
N 22 -7 
а7= 1 сах l- 280. = 0.0241<1 
所 以 该 非 线 性 模型 在 此 观测 精度 下 可 以 线性 化 . 
用 (2-4-16) 式 作为 非 线性 模型 能 否 线性 近似 的 判 据 与 (2-4-9) 式 相 比 ,具有 如 下 几 个 
方面 的 优点 : 
1. 计 算 简 单 ,由 以 上 算 例 知 , 计算 非 线性 模型 的 固有 非 线 性 性 оу 和 参数 效应 非 线 性 性 
aT 比 计算 最 大 相对 固有 曲率 TN 和 最 大 相对 参数 效应 曲率 77 简单 得 多 . 
2. 不 需 进行 假设 检验 , 而 且 判 断 准确 , 结论 惟一 . 因为 cx Жет 不 是 小 于 1 就 是 大 于 等 
于 1, 不 可 能 有 第 三 种 取 值 .而 用 (2-4-9) 式 判断 , 实际 上 是 做 FF 检验 , 而 下 检验 不 仅 与 分 子 
自由 度 上 、 分 母 自由 度 n -上 有 关 , 还 与 显著 水 平 c AX. 而 a 的 选取 有 较 大 的 随意 性 . 选 不 
同 的 a, 可 能 会 得 到 截然 相反 的 结论 . 另外 , 观测 值 的 个 数 л 对 判断 结果 的 影响 较 大 , 同一 个 
非 线 性 模型 , 当 观 测 值 的 个 数 ”不 同时 , 结论 也 可 能 不 同 . 
з. 当 判 断 某 非 线性 模型 可 以 线性 近似 时 , 还 可 以 估计 线性 近似 后 所 引起 的 模型 误差 . 若 
按 (2-4-9) 式 判断 , 则 做 不 到 这 一 点 . 
4. 当 (2-4-16) 式 不 成 立时 , 同 (2-4-9) 式 一 样 , 同样 可 以 分 三 种 情况 明确 回答 不 成 立 的 
原因 , 以 及 能 否 通过 参数 变换 再 线性 化 . 即 (2-4-16) 式 同样 具备 (2-4-9) 式 的 特点 . 
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第 三 章 “ 非 线性 最 小 二 乘 估计 


第 一 节 “” 非 线性 最 小 二 乘 估计 的 定义 及 存在 性 定理 


非 线 性 模型 (2- 1-4) 式 相应 的 误差 方程 为 ; 
V=f(X)-L (3-1-1) 
于 是 残 差 平方 和 为 
уу= |у |?=[|у(ЖХ)-1. | ?=(/(Х)—-1)°(/(Ж)-1,) (3-1-2) 
测量 中 , 观测 值 常常 有 不 同 精度 , 甚至 还 有 相关 观测 值 . 但 根据 等 价 观测 理论 (51 ( 黄 维 
№, 1992), 这 些 观测 值 都 可 以 变换 为 独立 观测 值 .所 以 采用 同 精度 观测 讨论 问题 . 
EX 3-1-1 非 线 性 模型 (2-1-4) 式 中 参数 X 的 一 个 估计 量 文 , 若 满足 下 列 关 系 : 
УУ = тіп (3-1-3) 
则 称 久 是 X 的 一 个 非 线 性 最 小 三 乘 估 计 , 用 Хк. 在 不 引起 混淆 的 地 方 简 记 为 文 .其 
Ф У 由 (3-1-1) 式 确定 . 
这 个 定义 与 线性 模型 最 小 二 乘 估计 的 定义 是 完全 一 致 的 .(3-1-3) 式 的 几何 意义 就 是 观 
测 空间 至 解 空间 的 距离 最 短 , 或 者 说 /(Х) 是 解 轨 迹 x 上 高 观测 值 L 最 近 的 点 ( 见 图 
2-2-1).1, 到 x 的 距离 就 是 上 У[. 
根据 定义 3-1-1, 有 如 下 定理 
定理 3-1-1 在 非 线 性 模型 (2-1-4) 式 中 ,车 /(X) 在 参数 空间 上 关于 X 存在 一 阶 连 
续 偏 导数 , НХ 的 非 线 性 最 小 二 乘 估计 量 X 存在 , WREE V {ЕХ 处 垂直 于 切 空间 
( 见 图 2-2-1). 
证 明 : 因为 V'V= AX) L ||? E Х 处 达到 极 小 值 , 因此 有 





aV’V 
ӘХ |хзх 
ду'у _ ду _ „I f(X) _ , с 
" IX lx- 27 әх 2У ӘХ vr 27У ВОХ) =0 


因为 У'В(Х) =0, 所 以 向 量 V 与 矩阵 B( 文 ) 正 交 . 而 文 АКЫН Т 是 由 B( 文 ) 的 列 
向 量 生成 的 空间 , 所 以 V ТЕХ 处 垂直 于 切 空间 三 . 
(3-1-3) 式 定义 了 非 线 性 最 小 二 乘 估计 量 广 .那么 在 参数 空间 Жр, 是 否 存 在 这 样 的 量 
E? 这 就 是 关于 非 线性 最 小 二 乘 估计 量 的 存在 性 问题 . 下面 的 定理 圆满 地 回答 了 这 个 问题 . 
定理 3-1-2 假设 为 R' 上 的 紧 子 集 , AF(X) 关 于 X 在 交 上 连续 , 则 必 存 在 R* 上 的 可 
WARR = ХОГ), 18 
ПОС) - 1 1? = тіп СХ) 一 二 | 2 LER” 
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此 定理 的 证 明 可 分 两 个 方面 , 其 一 存在 极 小 值 . 关于 这 一 点 , 由 于 f(X)- 工 上 在 六 
x R" 上 关于 X AL 都 是 连续 函数 .而 六 为 紧 子 集 , 所 以 对 于 任意 工 , | A(CX) - 工 外 在 关上 
ШЕЛЕК ЛМЕ XO). 其 二 就 是 证 明 可 测 性 .关于 这 一 方面 的 证 明 , 超出 本 书 的 范围 , 有 兴趣 
的 读者 可 参阅 文献 [24] ( 韦 博 成 , 1989) 中 的 定理 1.1. 


第 二 节 非 线 性 最 小 二 乘 估计 的 近似 解法 


既然 在 & 上 存在 最 小 二 乘 估计 是 文 ,能 使 1 /(X) 一 ?= min, 那么 ,如 何 求解 这 一 最 
ЯМАР? 本 节 和 下 面 几 节 就 来 讨论 这 个 问题 . 


一 、 线 性 近似 


当 非 线性 模型 (2-1-4) 式 的 非 线性 强度 较 弱 , 使 得 (2-4-16) 式 成 立时 , 可 以 将 非 线 性 模 
型 在 Xo 处 线性 化 ,并 用 线性 模型 的 求解 理论 来 解 算 非 线性 模型 (2-1-4) 式 , 这 也 就 是 我 们 
ЖЖЖЖ ЕЖЕЛИ. 即将 非 线 性 模型 (2-1-4) 式 在 Xo 处 线性 化 , 得 误差 方程 . 

V=B(Xo)dX -(L -f/f(Xo)) 
根据 最 小 二 乘 原理 可 解 得 : 
dX=(B(Xo)B(Xo)) BOXo)(L - f(Xo)) 
于 是 参数 X 的 最 小 二 乘 估计 量 为 ; 
Х=Х„+4Х 

第 二 章 已 经 证 明 , 当 (2-4-16) 式 成 立时 , 如 此 线性 近似 所 引起 的 模型 误差 对 最 小 二 乘 估 
计量 Х 的 影响 小 于 等 于 观测 误差 对 参数 估 值 文 的 影响 . 

二 、 参 数 变换 

当 非 线性 模型 (2-1-4) 式 的 固有 曲率 较 小 , 而 参数 效应 曲率 较 大 , 即 当 ау, ать 
时 , 可 设法 先 对 非 线性 模型 进行 参数 变换 , 使 得 非 线 性 模型 在 新 参数 下 有 a7 > 1, 或 者 在 新 
参数 下 使 参数 效应 立体 阵 为 0, 然后 再 在 新 参数 下 对 非 线 性 模型 进行 线性 化 . 

如 何 进 行 参 数 变换 才能 保证 非 线性 模型 在 新 参数 下 的 曲率 立体 阵 为 0 呢 ? 这 个 问题 可 
由 下 列 定 理 回答 . 

定理 3-2-1 如 和 欲 通过 参数 变换 Y= VX), 使 非 线 性 模型 在 新 参数 Y 下 的 参数 效应 
立体 阵 Н" =0, 则 函数 ХӘЛЕ БУУ Е. 

(Хх) (X) 
2 2 - [2 54020 |гт] 
T=[(B8'B)-!B’][W] 
式 中 :和 矩阵 В 和 立 阵 W 的 定义 同 前 . 

该 定理 的 证 明 参 见 文献 [24] ( 韦 博 成 , 1989) . 

求解 微分 方程 (3-2-1) 式 几乎 是 不 可 能 的 29 ( 韦 博 成 , 1989) . 因此, 定理 3-2-1 只 是 从 
理论 上 指出 了 使 参数 变换 后 , 在 新 参数 下 的 参数 效应 立体 阵 等 于 零 的 一 般 方法 . 由 于 微分 方 
程 (3-2-1) 式 无 法 求解 , 所 以 定理 3-2-1 只 有 理论 上 的 意义 , 在 实际 中 无 法 使 用 . 也 就 是 说 , 
对 于 一 般 的 固有 曲率 较 小 .参数 效应 曲率 较 大 的 非 线性 模型 , 虽然 从 理论 上 讲 可 以 先 通过 参 
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(3-2-1) 





ЕЕ нан. — жа 
数 变换 , 然后 在 新 参数 下 线性 近似 , 但 在 实际 中 却 难以 实现 . 因此, 不 再 过 多 地 讨论 参数 变换 
的 理论 . 


第 三 节 ” 非 线 性 最 小 二 乘 估 计 的 迭代 解法 





对 于 非 线性 强度 很 强 , Вр г, гТ> ү (BÈ aN >1‚вТ>1) ЕЕ ЫШ, 由 于 线 
性 近似 将 产生 大 于 观测 误差 的 模型 误差 , 所 以 一 般 采 用 和 迭代 的 方法 求解. 
根据 定义 3-1-1 知 , 求 非 线性 模型 (2-.1-4) 式 的 最 小 二 乘 估计 量 , 就 是 求 参 数 X 的 估 值 
文 ,使 
VV(X)= (F(X) ПУСК) - 1) 


= РОХ) РХ) 2F KL + LL = min (3-3-1) 
由 于 工艺 是 一 常量 , 所 以 (3-3- 1) 式 等 价 于 目标 函数 为 
КОХ) ОКК) -2f (X)L=min (3-3-2) 


的 非 线性 无 约束 最 优化 问题 . 

Врх) Х 的 非 线 性 函数 , 所 以 对 (3-3-2) 式 求 一 阶 偏 导数 , 并 令 其 为 零 , 得 不 到 
Х 的 显 表达 式 , 故 求 不 出 X 的 解析 解 .因此 , 我 们 只 能 设法 寻找 某 一 近似 解 X* ,使 

К(Х')<А(Х) (3-3-3) 

成 立 .寻找 使 (3-3-3) 式 成 立 的 近似 解 X, 一 般 只 有 采用 迭代 的 方法 . 为 此 ,下面 介绍 几 种 
常用 的 迭代 方法 . 

1. 牛顿 法 

设 R( 广 ) 的 极 小 值 X 的 一 个 近似 值 为 Xx’, 在 X(* 附 近 将 R(X* ) 展 为 泰勒 级 数 , 取 
至 二 次 项 得 

R(X*)= R(X нах) 























= ОХ) + аах“ + Fax GdX) = min (3-3-4) 
式 中 ， в = (gf gO e 00) 
= 25 25 = R) С (3-3-5) 
“К oR PR 
дхї 971972 дх\дт, 
ƏR R R 
Gi = ILT дт$ Irz, =G; (3-3-6) 
ƏR JR ƏR | 
дх,дтү ILT Ir? х=х' 
G; PKA XP ARKI Hessian 矩阵 . 
dX =x- ХО (3-3-7) 


вО 是 R(X) 在 X'* 处 的 梯度 方向 
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由 于 XOX 的 一 个 已 知 的 近似 值 , 故 (3-3-4) 式 只 是 dO WAR, 为 了 求 得 使 
(3-3-4) 式 成 立 的 АХ, (3-3-4) ах Озен, 并 令 其 为 零 ,得 
ge + dX EG, = () 
移 项 后 两 边 转 置 ,顾及 (3-3-6) 式 ,得 


Сб,ах'® = -g (3-3-8) 
当 G, 非 奇异 时 , 由 (3-3-8) 式 可 解 得 使 (3-3-4) 式 成 立 的 dX 人 *, 即 
dX = Ср) (3-3-9) 


当 dX 充分 小 时 , dX'* 能 使 (3-3-4) 式 成 立 .但 由 于 X* 未知 , 故 dX 避 不 能 充分 小 ， 
需 不 断 迭 代 , 直至 dX*) 充 分 小 , 其 迭代 公式 为 
ҳ‹+0 2 ҳо) + ах) 


= ХЮ — Gig ™® (3-3-10) 

(3-3-10) 式 就 是 牛顿 选 代 的 基本 公式 ,终止 迁 代 条 件 
р(х +0) = ВОХ) (3-3-11) 
或 gt =0 (3-3-12) 


由 于 КОХ) АНА ЯК НО, 而 „' ATRAER, 因此 , 由 于 计 
算 机 有 效 数字 的 限制 , 以 (3-3-11) 式 作为 迭代 收敛 条 件 比 (3-3-12) 式 作为 迭代 收敛 条 件 收 
敛 得 要 快 一 些 . 

牛顿 法 的 迭代 步骤 为 : 

(1) 选 取 初 值 ХО, Ж А = 0. 

(2) 按 (3-3-5) 式 计算 梯度 方向 ge, E ge =0 则 转 至 (7). 

(3) 计 算 和 矩阵 G. 

(4) 解 线性 方程 组 (3-3-8) 式 ,得 dX4) . 

(5) 按 (3-3-10) 式 计算 新 的 近似 值 Xe 5 . 

(6) 计 算 目 标 函 数值 КОХ), A КОХ) ек (хуй (2) КЕ. 

(7) 16, 输出 XE DA R(X D), 结束 . 

3-3-1 设 Xo=(5.4 -0.3) ,用 牛顿 法 求解 例 2-1-1 中 非 线性 模型 参数 的 非 线 
性 最 小 二 乘 估计 . 

由 例 2-1-1 知 , 目标 函数 为 

Е(Х)=//'(Х)/(Х)-2/(Х)1. 


5 5 
Мо; | 
=x? 5 e- 2r] 5 L;e™2 
i=1 i=l 


DR 5 . 5 | 
< 从 2(т\ 2 ) ei _ У е?) 
i=l i=l 








E = 5 А 
з ‚дг . i 
дт; 2z1(7121ie 2 一 2 Иле) 
FR PR 5 ЖИ оо, 
дг? CESCE S, 22е 2(2х‹ эе 2 一 2 ikie 2) 
aS шк PR | 2 5 5 5 
5 ; pix ; ix . 2i .2 ， 
дх»дх\ дт? 20211 71е 2 一 2 ilie 2) 271(271 J; ie T3 一 Ži 了 ;eczz ) 
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将 XX 中 代入 计算 рО Go 5, 0 КААК, 结果 列 于 表 3-3-1. 


表 3-3-1 

















4 5 6 


4 
— 1.205024908 | 0.3991833382 | 0.02889398018 10.0001691624122] — 3.9492 х 10° 
4— 
— 17. 1530503 7.037242713 0. 4948407424 | 0.002938012264 | 2.4039x 1077 
5.333013265 5.41719809 5.422708003 5.442744565 5.422744593 5.422744582 
—0.2539145225 | — 0.2542573375 | – 0.2556634078 | – 0.2556720853 


Р(Х) | – 40.21054702 | – 40.58524686 | – 40.63522342 | – 40.63549278 


迭代 6 XE, A R(X®)=R(X®)= – 40.63549281, 所 以 停止 迭代 ,得 X 的 非 线性 最 
小 二 乘 解 为 









-2.4012 x 107? 
(k) 





– 1.5569х 1077 





рс ~ |- 
—0.2556720877| — 0.2556720866 














- 40.63549281 | — 40.63549281 





| 5. 122744582. 
– 0.255672087 


Х* = 
由 例 2-1-1 Ж 
` + 0.002608395 
AX=X*-X= 
-0.001310197 
[ АХ || =0.0029 


由 例 2-1-1 知 , 本 迭代 解 与 其 真 值 的 距离 比 线性 近似 解 与 其 真 值 的 距离 要 小 一 个 数量 





级 . 

当初 值 取 外 =(5.4 一 0.5) 时 , 迭代 发 散 ,这 说 明 牛 顿 法 对 初 值 很 敏感 . 

2. 信和 赖 域 法 

我 们 随后 将 会 证 明 , 牛顿 法 具有 很 快 的 收敛 速度 , 但 它 总 是 局 部 收敛 的 . 因为 牛顿 法 的 
基本 思想 是 用 二 次 函数 


О(Хх\'®)= Р(Х) + ах + ах сах“ 


HEE Р(Х"). RAH aX ZAE, Q(X'*)) 才 能 很 好 地 逼近 КОХ). 因此, 人 们 近 
年 来 提出 了 一 种 保证 全 局 收敛 的 方法 , 来 代替 牛顿 法 中 的 线性 搜索 . 

既然 只 有 当 dX 充分 小 时 , ОХО) ВЕЕТ R(X), 那么 可 以 对 dX 加 以 限制 , 然 
后 在 限制 条 件 下 来 寻求 R(X* ) 的 极 小 值 . 这 个 思想 相当 于 求解 下 列 约束 最 优化 问题 : 

目标 函数 

ОС) = ОХ) + ах + Lax сах =min (3-3-13) 
ARRI 
l 4х'® || Shk 
式 中 :hi 为 一 正 数 , 它 随和 迭代 而 变化 . 
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约束 条 件 Пах [| <А, RAT ахо, ахо | ЖХ л, Пах 中 总 在 一 
个 给 定 的 小 区 域 中 活动 . 这 个 区 域 是 可 信赖 的 , 所 以 称 该 方法 为 信赖 域 法 . 
常数 h ЕТ О(ХЧ OI R(X**D) 的 逼近 程度 . 这 个 逼近 程度 可 用 下 式 来 描述 


__Е(Х©'Р) 
* ох”) 


ғ, 越 接 近 于 1, ОХОО) R(X1D) 的 逼近 程度 越 好 , 于 是 
{ах | ri <0.25 


Д 
hE alax, >0.75 
һу, 0.25<,,<0.75 
这 样 , 可 总 结 出 信赖 域 法 的 迭代 程序 : 
(1) 选 取 初 值 XOM ho, А =0. 
(2) 按 (3-3-5) 式 和 (3-3-6) 式 计算 梯度 方向 gO MERE G, Жк =0, MEE). 
(3) 按 (3-3-9) 式 计算 ахо, HRE Пах 中 是 否 满足 约 东 条 件 , 若 不 满足 , 则 采取 适 
що [| ах“ 予以 压缩 .然后 在 区 域 a REQ?) = min 的 ахо. 
(4) 计 算 X * 的 新 的 近似 值 х0 = ХО +ах“. 
(5) 按 (3-3-14) 式 计算 x ,并 按 (3-3-15) 式 确定 hioi. 
(6) 检 查 R(X О) = R(X ) 是 否 成 立 , 若 不 成 立 , 则 转 (2) 继 续 迭 代 . 
(DAIEN, 输出 XEDA КОХ), 结束. 
例 3-3-2 设 Xi=(5.4 -0.3) ,ho=0.08, 用 信赖 域 法 求解 例 2-1-1 中 非 线性 模型 
参数 的 非 线性 最 小 二 乘 估计 . 
R(X) g С, 的 表达 式 同 上 例 , 迭代 计算 的 结果 列 于 表 3-3-2. 


(3-3-14) 


(3-3-15) 


K 3-3-2 


k 1 2 3 4 5 


-十 + + 


5101 — 1.1205024908 | 0.1247630234 | 0. 00548626096 | 0. 000123053314 | 7.605186 x 1075] 4.700803 х10 > 
(k) 十 


gg] —17.1530503 | 2.746427624 | 0.09609929786 | 0.002154167737 |1.331179х 10 *18.228461х10`* 


十 十 

















< 人 | 5.342193488 5.421482607 5.422716379 5.422727153 5.422733806 5.422737919 





X (k) 
— 0. 255670562 





200 — 0.2446971417| -2553841042 | – 0.2556656317| - 0.2556680975 | — 0.255669209 
1 十 二 | 
R(X'*)| —40.21054702 | - 40.62555285 | – 40.63548246 | —40.6254928 | – 40.63549279 





— 40.63549279 

















ЖААК, В (ХО) = ВОХ), ТЫ Ж, 得 
‚2_ 5 422737919) -| 0.002601732 
С \—0.255670562/'°  \ —0.001308672 
| АХ [| =0.0029 
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[ЕЕ БА тө DE s 
当初 值 X"= (5.0 -0.4) 时 ,牛顿 法 发 散 . 而 本 法 经 过 18 次 迭代 后 仍 收敛 到 X = 


5 4227436 | 但 当 X?=(5.0 -0.5) 时 发 散 .这 说 明 信 赖 域 法 也 与 初 值 有 关 , 仍然 
一 0.29$6720336 
是 局 部 收敛 , 并 不 像 想 像 的 那样 全 局 收敛 

3 拟 牛 顿 法 

牛顿 法 基于 二 次 模型 


Р(Х) +ах)љр(х() + вах‘ + тахса) 


当 R 的 形式 很 复杂 时 , 求 R 的 二 阶 偏 导数 阵 С, 将 非常 困难 . 为 了 避免 求 二 阶 偏 导 数 , 我 们 
考虑 用 一 个 仅 包含 一 阶 偏 导数 信息 的 对 称 矩 阵 Q 去 逼近 Gu, 然后 再 按 牛 顿 法 予以 迭代 . 可 
见 拟 牛 顿 法 与 牛顿 法 的 差别 就 是 用 О, 代替 С... 

拟 牛 顿 法 的 关键 是 寻找 一 个 只 包含 一 阶 偏 导数 信息 的 О, ЖЕРЕ. Р О, 矩阵 的 确定 ， 
详 见 文献 [48]( 邓 乃 扬 ,1982), ЖЕЩЛ ЖЖ. 此 处 介绍 一 种 确定 О, 阵 的 新 方法 一 一 数值 
法 . 

由 (3-3-6) 式 并 顾及 (3-3-5) 式 有 
























































oR PR Ка ƏR Igi Igi 281 
Jr? дх\дт» дх\дх, Ji дт» дх, 
к. PR R 982 дрэ да? 
С = T2071 Jr? ITT, = Әх Әх дт, 
R R R Әв, 9, 9, 
дуг,д т, ILITI дт? DEF дт» дл, 
根据 多 元 函数 偏 导 数 的 定义 
Әр (ri, x2, ,Ti ) - flr, в Агосто) РС) 
5 = lim 7 
дуг; д0 Аг, 
知 : 
ваба жатьш) даба) вубол жах) = ваб) 
lim lim 
4—0 ах аг, 0 ах, 
© gal Ti tdi, T2, T) gar) ‚ gazit, r, ват, ) = g(r) 
| lim <- lim 7 
С} = 9р0 ах dx; 一 人 аг, 
в. (х1 tdri T2, 7,2,0) g(x) варто жах) в. (х) 
+ lim 
dz —0 ах 4—0 ах, 
A 
200) (ак rfO, е r) 
(А) (А) (k) (k +1) (k) (k) 
- 83 з (тү әл зу) 
OO 上 = 人 (3-3-16) 
一 (人 -— (k k k 
ШӨ] EPGP aH r) 


则 去 掉 极 限 后 ,得 G 的 近似 矩阵: 
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一 Ё А 一 k “(k k 一 (大 k 
к?з ilg- gt) | B үка gt- gie) 
дх(® 21 а dx 人 te， 2\ ах dz 人 

一 (А Ё (А k 
650-650) 1 G -g ge- g | 
Сь2= 9, = ат? 2 dr) d 多) 
其 
k k 
7O g 
drt? 
(3-3-17) 


ж 的 意思 为 对 称 和 矩阵 , 下 同 . 

用 (3-3-17) 式 定义 的 对 称 第 阵 О, 既 能 较 准 确 地 逼近 G, 又 只 包含 R 的 一 阶 偏 导 数 信 
E, 不 需要 求 二 阶 偏 导 数 , 有 了 О, 后 , 一 切 迭 代 均 按 牛 顿 法 进行 .由 于 拟 牛 顿 法 一 开始 就 要 
按 (3-3-17) 式 计算 О, РЕ, 所 以 计算 前 除了 给 定 X МИА ХО, 还 必须 给 定 dX 的 初 值 
ахах рве: 当 给 定 X 中 后 , X(9 减 去 一 个 很 接近 X' 的 向 量 O, 则 差 
值 就 是 dX40) , 即 

dX (0 =x -ZO (3-3-18) 
НТ, A XOM ax врат. | 

例 3-3-3 用 拟 牛 顿 法 求解 例 2-1- 1 中 非 线性 模型 参数 的 非 线 性 最 小 二 乘 估计 . 初 值 为 
х =(5.4 一 0.3) 

由 于 给 定 х0 =(5.4 —0.3),ШДИ ХО)! = (5.39 -0.28), 由 (3-3-18) 式 得 ах 
=(0.01 0.02). Жж Хах 后, 按 拟 牛 顿 法 迭代 的 结果 列 于 表 3-3-3. 由 表 3-3-3 
可 以 看 出 , 迭代 6 次 后 , б КОХ) = РОХ), ЕЕК, 得 

x= 5.422744560 
- 0. 255672085 
| Ar || =0.0029 

与 以 上 迭代 解 相 同 , 这 表明 用 数值 法 确定 的 О, ВЕ, REIRE б, 阵 . 

4. 最 速 下 降 法 

以 上 三 种 方法 ,都 需要 计算 R(X) 的 二 阶 偏 导数 矩阵 , 最 速 下 降 法 则 只 假定 R(X ) 在 解 
Х 附近 具有 二 阶 连续 偏 导数 , 且 此 二 阶 偏 导 数 和 矩阵 的 行列 式 大 于 、 等 于 0. 并 不 需要 具体 计 
算 这 个 矩阵 . 

最 速 下 降 法 的 基本 思想 是 基于 这 样 的 事实 :目标 函数 РОХ) ER X 避 处 的 梯度 方向 
g'“Y 上 数值 增加 最 快 .我们 现在 是 要 求 目标 函数 R( 文 ) 的 最 小 值 , 因此 , 若 在 寻找 РОХ) 
最 小 值 点 X* 的 过 程 中 , 沿 R(X) 在 XX 处 的 负 梯 度 方向 上 寻找 , 势必 使 R( 文 ) 的 数值 下 降 
RR. 所 以 称 按 负 梯度 方向 搜寻 X* 的 方法 为 最 速 下 降 法 . 其 迭代 公式 为 

Хо XO ахо = XR д0 00 (3-3-19) 
式 中 ;4 为 实数 , 称 为 步 长 ;梯度 方向 gE (3-3-5) ІЯ. 

从 和 迭代 公式 (3-3-19) 式 知 , 最速 下 降 法 的 关键 是 确定 步 长 .下面 就 来 讨论 步 长 А 的 确 

定 方法 . 
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2 





– 0.03115185858 — 0. 00384076635] ~ 0.00010347425 





一 0.221245771 | 0.856623242 


2.358884 х 10 7 








— 0.4936312734 | — 0.0575278579 


— 2.965959852 | 12.93742451 ~ 0.0015617973 


十 


3.739449 x 107% 





-十 


5.451669534 | 5.420543661 5.422705929 | 5.422744651 | 5.422744561 


5.422744560 









— 0.255545476 Е 0. 3556687702 ~ 0. 2556720931 


Lo 


— 40. 62536846 | ~ 40). 48402317 


一 0.2S6609692 ~ 0.2556720852 


十 - 一 小 





~ 40.63523365 





— 0.2556729849 


— 40. 63548925 | — 40. 6354928 | —40.6354928 













































[ 2.5022628 2.753000625 2. 765194851 ЕЕ 2.76373428 | 2.76373428 
| T 一 一 
©, 26. 20604801 33.01991882 31.12556489 31.13656682 31. 1394768 31.1394768 
| T T | | 
398. 1482354 533.4314266 472.3603199 469. 4625468 469. 7401401 469.7401401 
| 4 — 
7 2.311619915 3.003695448 2. 780051726 2.763839956 2.763740298 2.763740270 
| | | - 
G 21.2196711 | 35.54791966 31.443537 31. 13982534 31. 13799006 31. 13798972 
7 Г — T 
289.8392513 546. 7992839 475. 1482883 469. 7863468 469. 7540942 469. 7540898 














我 们 希望 按 (3-3- 19) 式 得 到 的 新 的 近似 值 ХО КОХ) ge Dm EARMA, Вр 


КОХ Dy = min( R(X? _. ag y) 
为 了 推导 公式 方便 , 仍 写 为 VV = min 的 形式 ,于 是 (3-3-20) 式 等 价 于 
V у(х“ Ру=тшшп(УУ(Х'?- g ®)) 
将 VV(XM*D) 在 XX 处 展 为 泰勒 级 数 , 取 至 二 次 


РЕС 


(3-3-20) 


项 ,但 略 去 V 对 X 的 二 阶 偏 导数 ， 


得 
VCVUOXCE+D) = ү'у(х“\® — д0 600) 一 (ХО — А0609) + (х — А6700) 
tet (XP др CO) 
5 t д д 
œx (XE) ~ 2500, (х) Ук (А) 2A +" в 22 ві юл Ifi 
Ке дт, dx 
ы ы др д 
+(Х'®)-2д'®„(Х®) У) 05 2 ану У д ө» 9з 9% 
j=l j=1 ТЕ дх; дт, 


а(х) 2400, ( хө) > э pC , g® 
і 8) 
£ 
(k of Pfa 
之 Bl Ix: Ixi 
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= VV(XCD) 2400) V (XS) BCX ) g 十 (AD)2 У) geWg 
ial 
































(3-3-21) 
式 中 : У(Х) = (АХО) гр РСК) 15 р(х) -LN) (3-3-22) 
Ifi fi Әд 
Ox!: Ərz дт, 
9fa 9/5. 9)» 
В(Х\'?у= | ozrl дт, дт, (3-3-23) 
d fa of, Ifa 
дхү ITa 7 дт, х=х'? 
| Ifi)? д); of af, fi 
дт\ дт, Irz 7 Oxi дх, 
Ifi Ifi 2 Ifi Ifi 
W= |025 dry (02 T Jaza дух, (3-3-24) 
Ifi fi Pfi dfi Eaj 
92, xy дт, ora Ix, yax” 
为 了 确定 满足 (3-3-20) 式 的 4, 将 (3-3-21) 式 对 4 求 导数 , 并 令 其 为 0, 得 
ИЕ V (Хх)в(х°?)д'% (3-3-25) 
> ОУУ Юк О 
化 简 后 , 得 І 
А СИС?) г УВСх) В (XO ухо?) - 1) — 
2( A(X?) _ БУВ(Х\'®)В'(Х'®)в(Хх\'®ув' (Хх )у(у(х\'®) - L) 
(3-3-26) 
最 速 下 降 法 的 迭代 步骤 如 下 : 
(1) 选 取 初 值 x”. 


(2) 按 (3-3-5) 式 计算 梯度 方向 g, Е g = 0 则 转 (7). 
(3) 按 (3-3-23) 式 和 (3-3-24) 式 计算 矩阵 вхо) ио. 
(4) 按 (3-3-25) 式 计算 4). 
(5) 按 (3-3-19) 式 计算 新 的 近似 值 XE ,并 计算 КОХ 0). 
(6) 若 Е(Х\®у (Хх Ру (2). 
(7) 终 止 迭 代 . 输 出 XED R(XE D), 结束 . 
例 3-3-4 用 最 速 下 降 法 求解 例 2- 1- 1 中 非 线 性 模型 参数 的 非 线性 最 小 二 乘 估计 . 初 值 
为 X=(5.4 -0.3). 
在 此 初 值 下 , 按 上 述 和 迭代 程序 ,经 452 次 迭代, 得 
5.418092476 
X*= , R(X*)= – 40.63548513 
– 0.255371788 
| АХ | =0.0023 
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前 已 述 及 当 XxX = (5$.0 -0.5) 时 ,上 述 三 种 方法 均 发 散 . MRE F KEE 4801Ж 
К. 仍 收敛 至 X* = (5.418337589 – 0.2553721503)', R(X!) = -40.63548593. 其 至 当 
х= (1.4 一 1.1) 时 , 经 过 1 490 次 和 迭代, ВЕЩ X* = (5.416988982 
- 0. 2552803529), R(X'*)) = – 40. 63548108. 一 般 说 来 , 最 速 下 降 法 对 任意 初 值 都 能 收 
敛 ,但 收敛 速度 并 不 像 该 方法 的 名 称 那样 是 最 速 的 , 相反 它 却 是 最 慢 的 . 这 是 因为 最 速 下 降 
法 在 接近 最 小 值 点 时 会 产生 拉锯 现象 . 

5. 高 斯 - 牛顿 法 

以 上 介绍 的 几 种 方法 , RERA RAR R(X”) = min 的 非 线性 最 优化 算法 . 与 我 们 测 
量 平 差 中 已 掌握 的 方法 相去 甚 远 .因此 , 测量 平 差 中 的 一 些 软件 都 不 能 直接 应 用 .而 高 斯 - 牛 
顿 法 则 不 同 , 几乎 可 以 完全 不 改变 原 测量 平 差 程序 . 

高 斯 -牛顿 法 的 基本 出 发 点 就 是 在 初 值 X@) 处 对 非 线性 模型 进行 线性 近似 , 并 按 传统 的 
平 差 方 法 求 出 一 次 近似 值 Xx 路, 然后 反复 迭代 , 直至 前 后 两 次 VV 值 相等 . 迭代 步骤 如 下 : 

假设 非 线性 模型 (2-1-4) 式 存在 一 阶 连续 偏 导数 , 且 参 数 X 之 间 相 互 独立 , 则 在 近似 值 
ХОДЕНЕ, 得 误差 方程 : 

Ү=В(Х'®)4Х—(1,—-/(Х%))) 





根据 最 小 二 乘 原理 , 有 
XV = XO + (B (X®JB( XY) IB (XO LL - A X®)) 
求 得 XDA, A XO ОЛИВ, 其 选 代 公 式 为 
х1 = хо + (В'(Х'®)в(х\'®)у-!вВ'(Х\®)(1, - /(Х“\®)) (3-3-27) 
终止 迭代 条 件 
КОХ +0) = рх). 
高 斯 -牛顿 法 具有 一 定 的 合理 性 . 因为 车 (2-1-4) 式 是 线性 模型 , 则 有 ВОХ?) = В, 
РОХ) = BX ,于 是 
хо 二 хо) + (B'B)'B (L _ вх‘) 
= (В'В) ВТ, 
上 式 表明 :车 (2-1-4) 式 是 线性 模型 , 则 由 高 斯 - 牛顿 法 从 任意 初 值 出 发 , 经 一 次 选 代 就 
可 得 到 最 小 二 乘 估计 的 精确 解 . 当 非 线性 模型 (2- 1-4) 式 的 非 线性 强度 较 弱 时 , 高 斯 -牛顿 法 
是 较 好 的 方法 . 
例 3-3-5 设 X 中 =(5.4 -0.3) ,用 高 斯 -牛顿 法 求解 例 2-1-1 中 非 线 性 模型 参数 
的 非 线性 最 小 二 乘 估计 . 
按 (3-3-26) 式 迭代 的 结果 列 于 表 3-3-4. 


表 3-3-4 






























k 1 2 3 4 5 
4. 
х (o) 5.394141331 5.422298989 5.422744502 5.422744573 5.422744573 
х | 二 H + 
zh) — 0.250050 -0.255618 -0.255672 — 0.255672086 — 0.255672086 
一 ү 一 
(х) — 39.78568664 — 40.62829761 ~ 40.63549238 — 40. 6354928 ~ 40. 6354928 
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5.422744573| 
Х* = ,|| АХ | =0.0029 
—0.255672086 
当 Xt0=(3.4 -0.8 时 , 迭代 发 散 .这 说 明 虽 然 高 斯 -牛顿 法 有 一 定 的 合理 性 , 但 在 
具体 执行 时 可 能 会 产生 一 些 问 题 .首先 是 对 初 值 的 依赖 性 较 大 . 当初 值 较 差 时 , 会 出 现 迭 代 
发 散 现象 , 使 迭代 无 法 进行 下 去 . 好 在 我 们 在 实际 计算 时 , 总 是 用 观测 值 算出 ХО xO 与 
X 很 接近 , 故 一 般 可 和 迭代 收敛 . 
6. 改进 的 高 斯 - 牛顿 法 
高 斯 -牛顿 法 对 初 值 的 依赖 性 较 强 , 当初 值 较 差 时 易 发 散 .为 了 克服 这 个 缺点 , 下列 定理 
给 出 了 对 高 斯 -牛顿 法 进行 改进 的 思路 249 ( 韦 捕 成 , 1989). 
定理 3-3-1 设 X% 是 X* 的 近似 值 , 则 V'V(X'*) 一 定 不 能 达到 最 小 ,于 是 有 
Жах“! =(в'(Х'®)ув(х\'®))-1в'(Х\'®)(1.— у(х\'®)), 那么 必 存 在 4" >0, АЄ 
[0,3 "18, #8 、 
V'V(X® +TAdXGOD)< V V(X®) (3-3-28) 
ШЕВА: 
将 УУ(Х лахо) ур, 得 


V'V(X® + лах) = у у(х“) ‚УУ СИ + ай? 
因为 
ах = -2V ах 
=-2(L – f(X)YB(XXB'(X)BI(IXDİB (XL - /(X)) 
=- 2| SrL- AXDI? - у'у(хХ“°) 
所 以 


УУ(Х +А4Х'®?)-у'у(х“?) 
=(-2 15:01 /(Х)) [|?+ел)А (3-3-29) 
当 4 一 0 时 , a 一 0, M ал 是 比 更 高 阶 的 无 穷 小 量 , 所 以 上 式 右 端 必 为 负 值 , 因此 
(3-3-28) 式 得 证 . 
此 定理 说 明 , 当 我 们 用 高 斯 - 牛顿 法 求 出 ах“ лн, а ЧН АСО, tE 
хао Хо + ACR dX . (3-3-30) 
则 一 定 有 : VV(X4-D)< YV(CXGO) .这 样 就 能 保证 VV(X%’) 逐 步 向 V'V 的 极 小 值 靠 
近 . 于 是 就 可 避免 迭代 过 程 的 波动 性 , 从 而 保证 得 到 收敛 的 非 线性 最 小 二 乘 估计 .根据 这 个 
思想 , 可 构成 如 下 迭代 算法 : 
(1) 根据 初 值 XO, 对 非 线 性 模型 (2-1-4) 式 线性 化 , 并 按 线性 的 最 小 二 乘 估计 求 
ах‘. 
(2) 适当 选取 (0) , 并 按 (3-3-30) 式 计算 ХО. АЕН Р(Х). 
(3) 车 R(X)= R(X), 则 转 (4). BWS XV = ХЧ), (1). 
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(4) 输出 XOM R', 结束 . 
该 算法 的 关键 是 要 计算 4, 韦 博 成 建议 对 R(X) 采 用 三 点 抛物 线 近 似 20 СБ, 
1989). 即 分 别 求 出 1 = 0, = 0.5 А =1 时 R(X) 的 值 . 这 三 个 值 为 : ОХО), R(X + 


Тах), R(X® ках), 则 


1+ ТООХ) - КОХ +ах‹%)) 





д = (3-3-31) 


КОХ) - 28| X® + зах +R(X® ках) 
-0.3) ,用 改进 的 高 斯 -牛顿 法 求解 例 2-1-.1 中 非 线 


例 3-3-6 取 初 值 XY = (5.4 
性 模型 参数 的 非 线性 最 小 二 乘 估计 . 
和 迭代 结果 列 于 表 3-3-5. 


表 3-3-5 





























k 1 2 3 4 
у rft 5.394427485 5. 42263568 ] 5.422699198 | 5.42273328 
хї? - 0.252490 - 0.255665 – 0.255669 - 0.255671 
R(X™)) ~ 39. 78568664 — 40. 6341258 ~ 40. 63549279 — 40. 63549279 
Аб 0.9511570916 | 1.00123933 0.583333333 0.75 
































‚ПАХ || =0.0029 


| 5.42273328 
- 0.25567100 
-0.8) 时 , 高 斯 - 牛顿 法 发 散 , 而 改进 的 高 斯 - 牛顿 法 选 代 7 次 收敛 到 


当 xO = (3.4 
X =(5.422744573 -– 0.255672), К(Х) = - 40.6354928, 4 X® = (2.4 一 0.9) и, 
经 7 次 迭代 也 能 收 全 到 X” = (5.422741415 - 0.255671), К(Х) = - 40.6354928. 其 至 
щ х0 =(8 一 1.5) 时 ,经 10 КАЯ X* = (5.422744573 -– 0.255672086)', 
R(X)= – 40.6354928. 这 说 明 改 进 的 高 斯 -牛顿 法 除 具 备 高 斯 牛顿 法 的 全 部 优点 外 , 还 在 
很 大 程度 上 克服 了 高 斯 - 牛顿 法 强烈 依赖 初 值 的 缺点 , 是 一 种 很 有 实用 价值 的 方法 . 

7. 阻 尼 最 小 二 乘法 

高 斯 - 牛顿 法 和 改进 的 高 斯 牛顿 法 有 解 的 必要 条 件 是 B(X(O) 和 矩阵 列 满 秩 . 但 在 非 线 
性 秩 亏 自由 网 平 差 中 , 由 于 缺少 基准 , В( ХО? ) 矩 阵 总 是 列 降 秩 的 .在 这 种 情况 下 , 高 斯 - 牛 
顿 法 和 改进 的 高 斯 牛顿 法 都 不 能 用 . 另外 , 当 非 线性 模型 (2- 1-4) 式 中 存在 复 共 线 关系 时 ， 
尽管 ВОХ) ЕК, (А ВОХ) ВОХ) ИЕК, Е ВОХ) ВОХ) E 
FONERA, 1979). 这 时 高 斯 -牛顿 法 和 改进 的 高 斯 牛顿 法 也 无 法 应 用 . 为 了 克服 
高 斯 - 牛顿 法 和 改进 的 高 斯 牛顿 法 的 这 个 致命 弱点 , 可 以 采用 增 大 BX) B(X AE 
对 角 线 元 素 的 办 法 , 即将 (3-3-27) 式 改写 为 

XO+ = ҳо + (В'(Х'®)в(х“?) + aI) -1В'(Х\®)(1, — #(Х'®)) 
(3-3-32) 
式 中 :a'*) 为 大 于 等 于 0 的 任意 常数 , 称 为 阻尼 因子 . БИЕК (3-3-31) ЖЕКЕ ВН 
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尼 最 小 二 乘法 .该 方法 最 早 由 Levenberg F 1944 FH 00 (Levenberg, 1944) .但 当时 并 未 
受到 人 们 的 重视 . 后 来 Marquardt 又 重新 提出 60 (Marquardt, 1963), 并 进行 了 理论 上 的 探 
讨 .所 以 人 们 又 称 阻尼 最 小 二 乘法 为 LM 算法 .1971 年 , Fletcher 又 对 其 实现 策略 进行 了 改 
HGD ( Fletcher, 1971), 改进 后 的 算法 又 称 LMF 算法 53 (能 西 文 等 , 1986). 显然 , 引进 阻尼 
因子 后 ,矩阵 (B (Х'®)В(Х) + at1) 对 任何 正 数 ,总 具有 对 称 正 定 的 性 质 . 因为 此 时 
矩阵 (B ОХ) ВОХ) + aP DRMA ЕАН A E. 
如 果 在 (3-3-31) 式 的 基础 上 再 引进 步 长 因子 4, 则 (3-3-31) 式 可 写 为 ， 
хе = х\® — AB (X®Y)B(X®) + ар)! у) (3-3-33) 
AP: VO ОХОО) -L;A (3-3-26) RME. Ро ЕССЕ ЛЯЕТ Ж) 
有 较 多 的 讨论 .我 国 著名 的 平 差 专 家 刘大杰 教授 针对 测量 平 差 给 出 了 具体 的 选择 策略 和 计 
AARO (刘大杰 , RMA, 1987) .对 于 非 线性 秩 亏 自由 网 平 差 问题 , 根据 我 们 的 计算 实践 ， 
建议 这 样 选取 a, 
а) = tr(B'(X®)B(X®))/k (3-3-34) 
然后 根据 v ууя aD, BJJ 
a tD m gD VVOO 
уу 
适用 于 非 线 性 秩 亏 自由 网 平 差 的 阻尼 最 小 二 乘法 的 具体 算法 如 下 . 
(1) 选取 初 值 Xx 中 (此 时 =0), 计 算 уу. 
(2) 将 非 线性 模型 (2-1-4) 式 在 XEO AREE. 
(3) 按 一 般 间 接 平 差 组 成 法 方程 .车 k=0, 则 计算 at (вов). 
(4) 按 (3-3-26) 式 计算 А00. 
(5) 按 (3-3-32) 式 计算 ХОР, ИЖ VVD .车 vvet = VV 的 , 转 (7). 
(6) 按 (3-3-34) 式 计算 a+0, 转 (2). 
(7) 输出 XSD, ууз) ,结束 . 
例 3-3-7 测 边 网 如 图 3-3-1 所 示 !50 (高 士 纯 . 于 正 林 , 1983), 同 精度 观测 值 和 各 点 的 
近似 坐标 分 别 列 于 表 3-3-6. 





(3-3-35) 
















表 3-3-6 
近似 坐标 观测 值 
№5} 
Хх; (т) В 5 С 

22 141.335 

2 | 22 141.335 0 27 908.063 

3 | 19 187.335 | 20 265.887 |20 044.592 6 

4 |—10 068.386] 17 332.434 |36 577.034 “~、 

5 20 480.046 

А 3 р 

29 402.438 








图 3-3-1 


64 





EEaren яна 





用 阻尼 最 小 二 乘法 求 参 数 的 最 小 二 乘 估 计 文 . 
按 上 述 算法 , 迭代 9 次 ,收敛 到 
文 =(1.5427x10-5 3.2685x10-5 22141.33408 一 1.1531 X1076 19187.34327 


20265.88658 —10068.39257 17332.43055)' 
үү“) = 0), 302914 


而 按 秩 亏 自由 网 平 差 5 (高 士 纯 . 于 正 林 ) ,得 
X =(0.00117 0.00379 22141.33345 -0.00001 19187. 34260 20265.88669 


— 10068.39322 17332.43053)' 


УУ = 0.37087828 
Ф) 3-3-8 测 角 网 如 图 3-3-2 所 示 649 (高 士 纯 .于 正 林 , 1983), 各 点 的 近似 坐标 和 同 精 


度 角 度 观测 值 列 于 表 3- 3-7, 用 阻尼 最 小 二 乘法 求 参数 的 最 小 二 乘 估计 义 . 
C 


图 3-3-2 






2 3 4 


+ 十 十 一 +- 















6 613.389 |10 601.272|14 781.825|10 669. 394 


+ 


63 471.447|69 734.761165 325.492166 477.321 
| а: і 4 一 一 一 一 十 


33°40 52.6 |421638.9°\30°52:42.5 |2826'05.6' |12748 39.0|10650 41.7|12520 39.8 



































20°5822.7 





观测 值 (m2345'13.4 





用 阻尼 最 小 二 乘法 ,迭代 13 次 ,得 参数 X 的 最 小 二 乘 估计 广 和 YY 为 

Х =(6 613.461803 63 471.44633 10 601.27786 69 734.80296 14 781.87943 
65 325.47980 10 669.38083 66 477.32210)' 

VVU = 22. 59345631 

ИЖЕ НЕ Ж=# (At FE»), 得: УУ = 22.63057 

Х =(6 613.431 63 471.457 10 601.259 69 734.792 14 781.839 65 325.458 
10 669.351 66 477.314) 

由 此 两 例 知 , 线性 近似 达 不 到 УУ 的 最 小 值 . 
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第 四 节 ” 几 种 迭代 算法 的 效率 比较 


一 、 迭 代 过 程 的 收敛 性 与 收敛 速率 的 有 关 定 义 


上 节 介 绍 了 几 种 迭代 算法 .它们 的 共同 之 处 是 通过 各 种 不 同 的 迭代 算法 产生 迭代 序列 
1X421CR" .不 同 的 迭代 算法 , 有 的 强烈 依赖 于 初 值 , 有 的 与 初 值 关系 不 很 密切 ; 有 的 收敛 
很 快 ,有 的 收 义 却 很 慢 . 之 所 以 会 这 样 ,是 因为 不 同 的 算法 具有 不 同 的 收敛 性 和 不 同 的 收敛 
速率 .关于 收敛 性 和 收敛 速率 , 有 如 下 定义 ， 

定义 3-4-1 若 一 算法 对 于 某 类 目标 函数 来 说 , 任意 给 出 初始 点 XO ER , 按 该 算法 构 
造 的 序列 |X4| 总 停止 或 者 收敛 到 目标 函数 的 一 个 极 小 点 , 则 称 该 算法 对 该 类 函数 具有 全 
局 收敛 性 . 

定义 3-4-2 大 一 算法 对 于 某 类 目标 函数 来 说 , 在 其 定义 域 的 某 个 区 域 D 上 任 取 一 点 
作为 初始 点 X'0) , 按 该 算法 构造 的 序列 1X451 属 于 区 域 D, 并 总 停止 或 收敛 到 这 个 区 域内 的 
一 个 极 小 点 , 则 称 该 算法 对 该 类 目标 函数 具有 区 域 D 上 的 局 部 收敛 性 . 

定义 3-4-3 若 对 于 序列 1X4) ,存在 着 P20, 并 存在 常数 N AM, I REN 时 ， 
有 

|| ҳк +10 _ xX” || <M | хә = х" | Р 
КЛЕ ХО аА В Р, З ХОУ Р 级 收敛 ， 

ЖУ 3-4-4 若 对 于 序列 | Xe 来 说 ,存在 着 常数 N MM, WN, E 

| XE- х" «м хох"? 
ЛЕКО A m PORRA, R m 步 平 方 收敛 ， 

显然 , 当 产 =1 时 ,就 是 通常 的 平方 收敛 . 

EX 3-4-5 若 对 于 序列 1X4 来 说 ,存在 着 9€ (0, 1), 并 存在 常数 N 和 M, 使 得 当 
kk 宇 N 时 ,有 

| x -XxX* || < MË 
则 称 序列 1X41 线 性 收敛 ， 

一 个 实用 的 迭代 算法 至 少 应 具有 线性 收敛 速率 . 

定义 3-4-6 ”车 对 于 序列 |X(*)| 来 说 , 任 给 8>0, 都 存在 N>0, 使 当 上 之 N 时 ,有 

| x+- xt |<в|х'®”-Х* | 
则 称 序列 1X4)1 超 线性 收敛 
显然 , 线性 收敛 是 超 线 性 收敛 的 必要 条 件 , 而 超 线 性 收敛 又 是 平方 收敛 的 必要 条 件 . 


二 、 上 述 几 种 算法 的 收敛 性 与 收敛 速率 


1. 牛 顿 法 的 收敛 性 与 收敛 速率 
关于 牛顿 法 的 收敛 性 与 收敛 速率 , 有 如 下 定理 : 
定理 3-4-1 НИЯ R(X)= / (х)/(х)-2/°(х)1, 是 某 一 开 域内 的 三 次 连续 可 
微 函数 , 且 它 在 该 开 域 内 有 极 小 点 X* . 若 存在 着 。 >0 和 т >0, 使 得 当 
1X=-X || <e, YER 
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时 , 有 
т||Ү|?<(Ү,С(Х)Ү) 

则 当初 始点 XORI X * 时 , 由 牛顿 法 (3-3-10) 式 产生 的 序列 1X4 ЦИ Р X*, 且 为 
平方 收敛 . 

上 式 中 G(X)X R(X) ÆA X 处 的 Hessian 矩阵 , (Y,G(X)Y) 表 示 两 向 量 Y 与 
G(X)Y 的 内 积 . 

证 明 : 显然 定理 条 件 中 的 不 等 式 可 加 强 为 当 X-X* [| <e, YER 时 有 

т || Ү|?<(Ү,С(Х)Ү)<М [| Y |? 
还 可 以 看 出 , 当 上 X-X* | <е 时 , G(X) 的 最 小 特征 值 >m. A G71( wx) 的 最 大 


特征 什 GOO I <, ЯШ 
Гао Бе Кеке 
由 g(X) 的 连续 性 及 g(X*)=0 知 , ЕЖ Є |0, S) ,使 当 | X - X | ев 
Пас I <% 


这 意味 着 当 X(4 满足 
|х| <е 


,х ож Е 
[хх х= [Хх СХ) XE) 
XH -XI + СХ) (ХО) | 
二 上 + 二 .Ps е ре =e 





2 m 2 2 2 

这 就 证 明了 当 xO 充分 接近 X* 时 , AE EREA O a. 根据 定义 3-4-2 
知 , 牛顿 法 对 目标 函数 R(X) 局 部 收敛 . 

下 面 再 来 证 明 收 敛 速率 .为 此 需要 建立 上 XX 一 "有 和 和 盾 匀 1D -XX* 有 之 间 的 估计 
式 .根据 邓 乃 扬 的 推导 (3, 得 

| хер | <C | хао | 2 

所 以 根据 定义 3-4-4, 牛顿 法 的 收敛 速率 是 平方 收敛 

信赖 域 法 和 拟 牛 顿 法 以 及 高 斯 - 牛顿 法 , 其 实质 是 牛顿 法 , 所 以 它们 与 牛顿 法 具有 相同 
的 收敛 性 质 和 收敛 速率 . 

信赖 域 法 和 拟 牛 顿 法 的 实质 是 牛顿 法 , 这 是 显而易见 的 .那么 , 何以 见得 高 斯 -牛顿 法 的 
实质 也 是 牛顿 法 呢 ? 下 面 扼要 说 明 这 一 点 65 ( 陈 宝 林 , 1989). 我 们 知道 高 斯 - 牛顿 法 是 用 线 
性 函数 立 = ВХ – І. 去 逼近 非 线性 函数 立 = Р(Х) - 工 .这 相当 于 用 目标 函数 

Ф(Х) = Х'В'ВХ -2Х'ВТ. (3-4-1) 
去 逼近 目标 函数 
R(X)=f (X)f(X)-2f (X)L 

于 是 ,根据 牛顿 法 , 我们 很 容易 写 出 (3-4-1) 式 的 牛顿 迭代 公式 . 由 (3-4-1) 式 知 , 梯度 

方向 为 
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g =2B (BEX -1,)=2В'Ә(у(Х'®)-1.) (3-4-2) 
(顾及 了 用 ВХ - І. 5 /(Х)-—1, 这 一 事实 ), 而 ФОХ) XARRI Hessian 和 矩阵 为 
д? , 
Gi = 556 =2В Юр (3-4-3) 


于 是 由 (3-3-10) 式 得 牛顿 迭代 公式 
XK+1) 一 Xk) Gig ®© = Xk) _ (280 ВЧ) 2Вв (ХЧ) — L)) 
= ХО с (BOBY) IB орх) - L) (3-4-4) 
(3-4-4) 式 正 是 高 斯 -牛顿 法 的 迭代 公式 (3-3-27) 式 , 所 以 说 高 斯 -牛顿 法 的 实质 是 牛 
顿 法 . 
2. 最 速 下 降 法 的 收敛 性 与 收敛 速率 
关于 最 速 下 降 法 的 收敛 性 质 与 收敛 速率 ,有 如 下 定理 : 
定理 3-4-2 BARAK Р(Х). 
(i) R(X) 是 R' 上 的 二 次 连续 可 微 函数 ; 
(让 对 于 任意 的 X ER, 存在 着 常数 x >0, 使 当 XEC(X’)= XIR(X)R(X’)I,Y 
ER' H, EA 
mll Ү|?<‹(Ү,С(Х)Ү) 
(其 中 C(X’) 为 相对 于 X 的 基准 集 , G(X) 是 R(X) 在 XX 处 的 Hessian 矩阵 ), ДА R' 中 任 
意 一 点 X(*) 出 发 , 当 按 最 速 下 降 法 迭代 时 , 或 者 在 有 限 步 内 达到 R(X) 的 惟一 极 小 点 , 或 者 
所 构造 的 序列 [1X4 收敛 于 R(X) 的 惟一 极 小 点 . 
定理 3-4-3 若 目 标 函数 R(X) 在 XX“ 的 某 一 邻 域内 二 次 连续 可 微 , 且 存 在 e>0 和 m 
>0, #4] X-X* || <e, YER” 时 ,有 
тЇҮ|?<(Ү,С(Х)Ү) 
ШЖ КЕМНЕН РЕЛ] ХО? | 至 少 线性 收敛 于 X”. 
以 上 和 定理 的 证 明 , 详 见 2 ( 邓 乃 扬 ,1982). 这 两 定理 指出 最 速 下 降 法 是 全 局 收敛 的 , Н. 
.收敛 速率 是 线性 的 . 
3. 改 进 的 高 斯 - 牛顿 法 的 收敛 性 及 收敛 速率 
定理 3-4-4 BRIER 上 的 有 界 凸 集 , Xo 是 六 的 内 点 .并 且 : 


(DB(X) = SEHE БАЕН ЕЕЕ, 而 且 是 列 满 秩 矩 时 , 立 是 六 的 闭 包 . 


GDR(Xo)<R(R =minR(X,;), X, 为 久 的 边界 点 ). 
(ii) 在 上 不 存在 二 点 X 和 XX 使 得 下 式 成 立 : 





R(XY=ROX), EQO] = 
则 在 这 些 条 件 下 按 改进 的 高 斯 - 牛顿 法 得 到 的 序列 |X* 站 满足 : 
(i) 一 切 X4 都 是 和 的 内 点 ,上 =1,2,… 
ХОНАЕ X”, X "也 是 允 的 内 点 , 而 且 是 R(X) 在 六 上 的 稳定 点 , 即 有 
R(X) _ 
ӘХ (хех 





ШЕН: РР XOA Е(Х'®)<Е(Х)< ЕЁ, ХОЖА ВЕ (А = 
1,2,…), 所 以 结论 (i) 成 立 . 因为 ОХО) k 的 单调 递减 序列 , 所 以 必 有 极限 存在 , 设 为 
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R* .又 由 于 序列 |X41 有 界 , 因此 必 存 在 收敛 子 序列 ， 今 设 |Xi1,8=1,2,… 收 敛 于 X" .由 
函数 R(X) 的 连续 性 可 知 : 
пако ое) КОХ 
因此 ,XX* 亦 为 六 的 内 点 . 
下 面 再 来 证 明 2RGO | .= 
Х=Х 
由 定理 条 件 (i) 并 顾及 


[2800 
ӘХ 





= -2В (Хх) (1 - РХ" )) 








Х=х` (3-4-5) 
=-2В(Х”)В(Х”)ах” 
式 中 :dX*=(B'(X*)B(X*)) !B'(X’*)(L-/(X*)) 
知 2 GO ы =0 等 价 于 dX* =0. 为 了 证 明 ах” =0, 用 反 证 法 , В ах" 50, 则 推出 
TEAR. 
由 于 X* УЧА, MEFE Л\Ш 0< о, АЄ[-8,8]Н Хх" +Аах" H 
的 内 点 . 
另 由 (3-3-29) 式 知 , Е 0<А* < 35, 使 得 
Е(Х*+А* ах )-Е(Х')<-С (3-4-6) 
其 中 C>0, 但 与 1 人“ 有关. 又 由 于 ров. 
Xa >X’, аХр»ах` 
取 B(4" ) 充 分 大 ,使 一 切 а> (А 7) 时 Хр+А "ах, IA LAR, HA 
R(Xp +A" dXg)- R(X" +асах')< © (3-4-7) 
(3-4-6) 式 成 立 是 因为 R(X)Æ X? +4*ах "处 连续 .因此 顾及 (3-4-6) 式 有 
 R(Xp+à* dX) = R(X*)< -$ 
由 于 一 切 Xs +A” dX, #08 2н, 因此 
At EAp= 1А" :0<А "1, Xa tA "ах EH 
KA 
КОХ.) = MinR (Xg + ААХ) R(X; +à *dXa) 
Ар 
从 而 得 到 


R(X*) SR(X )<Е(Х,+А°4Х)<к(Х”)-© 


以 上 不 等 式 是 不 可 能 成 立 的 ,这 样 就 证 明了 dX s0. AWESO) ше, 
最 后 再 来 证 明 序 列 | X(21 的 收敛 性 .为 此 设 1Xo 1 的 另 一 收敛 子 序列 为 1 郊 1. 则 根据 
以 上 同样 的 讨论 知 ,存在 又 *, 当 Boo, ХХ" КОХ) КОХ). Н°ЕСО е 


ВБ), VA X” =X% НЮХ 1 必 收 敛 ,上 且 收敛 到 内 点 X*. 故 定理 得 证 . 
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至 于 收敛 速率 , 也 与 高 斯 - 牛顿 法 相同 . 

4. 阻 尼 最 小 二 乘法 的 收敛 性 与 收敛 速率 

关于 阻尼 最 小 二 乘法 的 收敛 性 ,有 下 列 定理 . 

定理 3-4-5 设 非 线性 模型 (2-1-4) 式 中 的 /(X) 为 定义 在 DCR” 上 而 取 值 于 R' 的 向 
EAM, CEBE XHEK DOD Е, 并且 对 于 任何 X,YE DD, 满足 

| вох) - в(у) 1 EKI|IX-Y| 
式 中 :K 为 常数 , Н K >0. 现 令 A(X" ) 为 矩阵 B'(X*)B(X* ) 的 最 小 特征 值 , H 
А(Х')>К | /(Х*)]| 

jax1 为 任何 非 负 有 界 实数 序列 , И ЕН ЁН Б, ДЕЛДЕЕ ЕШ РЕ ХО | ЙИ Т X”. ШЕ 
明 详 见 文 献 [49]( 王 德 人 , 1979). 

至 于 阻尼 最 小 二 乘法 的 收敛 速率 , 有 如 下 结论 : 随 阻 尼 因 子 a 的 取 值 从 0 变化 到 无 穷 ， 
其 收敛 速率 由 平方 收敛 减 至 线性 收敛 . 

关于 这 一 结论 , 我 们 可 作 如 下 简要 说 明 , 因为 当 a =0 时 ,阻尼 最 小 二 乘法 (3-3-32) 式 
还 原 为 高 斯 - 牛顿 法 , 即 

хе — х) + (ве В ув, - f(X*))) 

我 们 在 前 面 已 经 证 明 , 高 斯 - 牛顿 法 具有 平方 收敛 速率 . 当 a-> 吕 时 , (3-3-32) 式 的 下 降 方向 
- B'O) - 工 ) 趋 近 于 最 速 下 降 法 (3-3-19) 式 的 负 梯 度 方 向 - g (这 点 的 证 明 详 
见 文献 [49] (EA, 1979)). 故 当 -co 时 ,阻尼 最 小 二 乘法 趋 近 于 最 速 下 降 法 . 而 定理 
3-4-3 告 诉 我 们 , 最 速 下 降 法 为 线性 收敛 .所 以 阻尼 最 小 二 乘法 随 а 从 0 变化 到 co , 收敛 速 
率 从 平方 收敛 减 至 线性 收敛 . 这 一 点 我 们 在 实际 计算 中 也 得 到 了 验证 . 


三 .上述 几 种 算法 的 效率 比较 


一 般 来 讲 , 一 个 最 好 的 和 迭代 算法 应 该 是 一 个 最 经 济 的 方法 , 即 能 用 最 少时 间 求 出 满足 精 
度 要 求 的 解 X* 655( 陈 宝林 , 1989). 概括 地 讲 , 一 种 算法 的 效率 如 何 , 应 从 下 列 三 个 方面 去 
综合 衡量 : 

(1) 和 迭代 过 程 中 每 步 的 计算 工作 量 . 

(2) 迁 代 序列 的 收敛 性 ， 

(3) 和 迭代 序 列 的 收敛 速率 ， 

对 于 非 线性 模型 的 测量 平 差 而 言 , 还 应 考虑 能 否 充 分 利用 多 年 来 所 开发 的 大 量 平 差 软 
件 .因此 ,一 个 好 的 迭代 算法 , 应 该 具有 很 快 的 收敛 速率 , 应 该 对 初 值 的 依赖 性 不 太 强 , 而 且 
每 步 的 计算 工作 量 都 较 小 . 更 重要 的 是 还 应 该 在 任何 情况 下 都 能 顺利 完成 迭代 计算 同时 又 
能 充分 利用 现 有 软件 资源 . 

牛顿 类 算法 (牛顿 法 、 信 赖 域 法 、 拟 牛顿 法 等 ) 尽 管 收敛 快 , 但 需要 计算 目标 函数 V'V 的 
Hessian 矩阵 , 而 且 还 要 求 Hessian 矩阵 正定 . 不 仅 每 一 步 的 工作 量 都 很 大 , 而 且 都 是 局 部 收 
к, 加 之 与 我 们 的 平 差 习惯 相去 甚 远 , 不 便利 用 现 有 平 差 软 件 . 因此 , 在 非 线性 模型 平 差 中 不 
能 算 好 的 算法 . 

最 速 下 降 法 虽然 具有 全 局 收敛 性 , 但 收敛 太 慢 , 由 例 3-3-4 ЖП, 同样 的 初 值 , 收敛 到 同样 
的 精度 , 牛顿 法 只 要 选 代 6 次 , 而 最 速 下 降 法 却 需 迭代 452 К. 

高 斯 -牛顿 法 和 改进 的 高 斯 -牛顿 法 , 既 具 有 牛顿 法 的 收敛 速率 , 每 次 选 代 计 算 工 作 量 又 
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不 太 大 ,尤其 是 改进 的 高 斯 -牛顿 法 , 尽管 也 是 局 部 收敛 , 但 收敛 域 的 范围 相对 较 大 . ЖЖ 
分 利用 现 有 平 差 软件 , 所 以 当 非 线性 模型 平 差 系统 中 具有 足够 基准 时 ,使 用 改进 的 高 斯 - 牛 
顿 法 有 较 高 的 效率 . 当 非 线性 模型 平 差 系统 中 缺乏 基准 时 ,阻尼 最 小 二 乘法 仍 能 顺利 选 代 ， 
而 阻尼 最 小 二 乘法 亦 不 需 太 多 地 改变 传统 平 差 程序 , 所 以 , 对 于 非 线性 模型 秩 亏 自由 网 平 
差 , 采 用 阻尼 最 小 二 乘法 为 好 . 


第 五 节 ” 非 线性 最 小 二 乘 估计 的 直接 解法 





前 面 介绍 了 几 种 迭代 算法 , 下面 再 来 介绍 笔者 提出 的 一 种 无 需 迭 代 的 求解 非 线 性 模型 
参数 的 非 线 性 最 小 二 乘 估计 的 直接 解法 440 ( 王 新 洲 , 1999). 
设 非 线性 模型 (2-1-4) 式 的 三 阶 连续 导数 存在 , 并 设 参 数 X UEA KO, Xx 路 的 改正 
数 为 dX ,将 (2-1-4) 式 展 为 泰勒 级 数 , 并 取 至 三 次 项 , 得 
L=f(X®)+BdX+ÈCY++pDZ+A (3-5-1) 
相应 的 误差 方程 为 
у= вах + усу + 1р2 +1 (3-5-2) 
ф:/-/(Х'®”)—-1.;В,С 分 别 为 xx Mn xa 的 矩阵 , 其 定义 如 前 ;DD X nx В 的 矩阵 ， 
н Ея. 


Ph Pfi Ph, P. Pfi GARI Pfi bfi 

















‚ө КЕ 6 Р 一 一 
Әх ах} дд?д х) дхїдх, axar, Әх2дд,. 1 9x19r29.3 бзш дт, уйт, 
ау әу Pfa 3 Ph 3f 3 h gh Pf __ 
D=] Әх} Әх} “axr, ` artar, ` xdoxry Axar, Әхідхәудха  дд,.у)дт,_ Әх, 
Pfa Pfa PPa g Eh а ӘЛ h в PF, 
ах} ar? Iride, дхїдх, дх$дх CESCE TEEN xi9.T293 Oz 2 OT x 
(3-5-3) 
_1 +1 — „2 3 
а= АС ), B= + С; (3-5-4) 
з в 
式 中 ;Ci 表示 4 个 量 中 拿 出 3 个 的 组 合 
ах = (аг, dz … dx) 


Ү=а4Х? = (422, =, 42, dridz `,іхіах,, dradx3, С, ах, -1х,) 

2=4Х?= (dz >, dr}, dzrtdzo =, dr?dz,-1, dridrzdx3,*, dx, зах, idr, Y 
(3-5-5) 
由 (3-5-1) 式 知 , Y 和 2Z 相当 于 附加 参数 , 即 在 线性 观测 方程 中 增加 了 两 组 附加 参数 Y 
和 Z. 由 于 Y 和 2 都 是 dX 的 非 线性 函数 , 使 得 参数 之 间 不 独立 . 故 由 (3-5-2) 式 不 可 能 同时 
H dX. Y.Z. 由 测量 平 差 知 , 既然 参数 dX 与 附加 参数 Y、Z 之 间 相 关 , 那么 dX 与 Y.Z 
之 间 就 存在 限制 条 件 . 其 限制 条 件 的 个 数 S 等 于 参数 总 数 减 去 必要 观测 值 的 个 数 , 即 S = 
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(+a+B)-4=a+p. 于 是 可 得 附 有 限制 条 件 的 间接 平 差 模型 ; 
V= Ваг + tcy + DZ +[ 


э -4‹}=0 


Yı - dr? =0 


yt+i™ dridr2=0 


] = 4,12, =0 (3-5-6) 
21 一 dzi =0 





Z, -dz3y=0 
Ziri- dridr2=0 


Zg- dx, -2dx, ~-idx, = 0 
(3-5-6) 式 中 的 限制 条 件 也 是 非 线 性 方程 . 仍 需 展 为 泰勒 级 数 .由 于 dX 是 Xo 的 改正 
Ж, 已 是 微小 量 , 故 将 条 件 方程 展 为 泰勒 级 数 时 , 只 需 取 至 一 次 项 即 可 . 为 此 , 令 

















ах = Ху +ô (3-5-7) 
将 (3-5-6) 式 中 的 限制 条 件 展开 , 得 
ах 242018, 
dró 2dxoð 
Y= yu+dy= б у 02 (3-5-8) 
Я.ғо ахо droz + ахо 
ахо, -ldzo dzol6 -1 + dror-16， 
ахд 342418 
ахд, _ 3dzra 8 
атат» 2ахоахо ё +атф д 
Z = Zo + dZ = : + : 
ахф&х°-| 2dzocdzor -16) + аё, х, -1 
dzoldzozdzro3 ахоӣхозё + ахо хозд2 + ахо хоз 3 
ахо, -2dzor-ldzor ахо -1070,01 + ахо, -2ӣход, -1 + хо 200,10, 
(3-5-9) 


将 (3-5-8) 式 和 (3-5-9) 式 代入 (3-5-6) 式 的 第 一 式 , 消去 附加 参数 Y #17, 得 新 的 误差 
方程 为 
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V= Ваге+ Bò ++ Cys + Сё + EDXo+ Dò +1 






































经 推导 , 可 得 
-r fi 1 д? fi t of 
| Sidro т 
2 dzoi Irid; > dzo: дтудт ro: дт,дх 
了 2 р t 2 у 2? f 
А! | 2 2 ҳл 2 
С = 2 dzo; дх\дх; 24го, Ixxi 2720 Ird zi 
t д? f, t of t д? }, 
| aro sh 
[27dzo дх\дт; 2,40 IxT; 21870 Ir Iri] 
du 4р 41% 4 
p=} dz dn 42 da 
2 . : . 。 
dp а,2 dnk di 
其 中 : 
Pfi : Pfi 
<L 9 ! 
十 十 
зл, Эт з 2dzĝı DY dzo: дт 292 22 Diro азбы тәтә, дх\дхудх; 
= 544%; _+24 Уза ЛВ -+ 2d Уа А 
Oi Tok Toi дт дт то Toi дтх\дхьдх 
а бин 
2-1 2-1 32? fi 
+ 6 ЈА 
2 Sin $ dzo; дх}дхьдх 
рт" 19А 
[ д5 с of of 
Vi 1 \ L \ ! 
d= 2 dro; 51291 + 2ахо; уто; 22201, + 24го 2, 5 dxo; дт\дт;дт, 
Pf 
ҳл УА 
Б. ахо; 9худ лид, 





























дд = Ya 2 2d Уза ИР 25a d ?fh 
d21 = 20: 5 + To 2 ‚ Xoi 2:292, + “ч wX, TOi дх102;0 Ti 
P р, д? fa 
й. = Sara 2 saira Sar 2291, заго da дх\дтьдх 
бн 4 
? fa 
+ jei аго; д2; дхъдх: 
ЕЯ: М 
1 -= 0 fo 
= Уа ут + 2dzor 2y dzo; Jz 23 r + 24хо S dro дх\дх;дх, 
G д? oj _ 
+ ы dzo: 579291, дх;дх{дх, 
D3 t 3 t-l Ы 3 
ын 9 fn 9 fa 
ал = дт$; ИШ 2dz dzoi + 2 2) droj dzo; 
17 У 0; дт “2, 0 PERDES А v 2 0 дт\дхудт; 
СУЯ ау, nar, Zh 
= vdz3， +2d dzo; +2d dzo; 
dak 2) х0: дх?дх, х0 2 Toi дх1дх; Tol 2 Toi дхудхьдх; 


{©} 156 п 
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(3-5-10) 


(3-5-11) 


(3-5-12) 





参数 估计 理论 与 应 用 


с! t _ Pfa 
+ 2$} dro; 5 d.ro; TO 
j=2 izis k 





7 ч д3 п CA д? у, СА P у, 
й, = ы: = + 2dro 24го 21291 + 24х01 > dzo Этудх;дт, 
+ Sidro, 5 ахо; д2; А 
以 上 各 式 中 ， k 为 5 矩阵 的 第 列 , Н 2<А%;-1. 
令 
B=B+C+D 
- 1 1 (3-5-13) 
= ВаХо+ СҮ + 620+ | 
则 (3-5-10) 式 可 写 为 
У= Вд +1 (3-5-14) 
(3-5-14) 式 是 我 们 所 熟悉 的 一 般 线 性 模型 的 误差 方程 , 根据 最 小 二 乘 原理 可 得 法 方程 
В'В8+В1=0 (3-5-15) 


二 、 解 的 惟一 性 定理 


定理 3-5-1 ， 当 未 知 参数 的 个 数 等 于 必要 观测 数 ， 并 独立 时 , (3-5-15) 式 的 解 存在 且 
惟一 ， 
证 明 : 当 未 知 数 的 个 数 等 于 必要 观测 数 с 并 独立 时 , 有 rk(B8)= г, Я (С) = to 
rk(D)= tp, 2 1..1 部 不 大 于 4, 即 eSt, г<. Р 
rk(B)=rk(B +С + р)<к(В) + :к(С) + (б) = ++ 
由 于 1.50, 150, 所 以 


тК(В) >тК(В)={ (3-5-16) 
又 因为 B 是 x BER, л>, ТИ В 的 秩 不 大 于 1, 即 
гк(В)< (3-5-17) 
综合 (3-5-16) 式 和 (3-5-17) 式 得 
rk(B)=1 
WAB (ВВ) = г, ВВВ 为 满 秩 方 阵 , 于 是 (3-5-14) 式 有 惟一 解 . 
于 是 
6=- (BB)-!B1 (3-5-18) 
Х= Xo + dXo+6 (3-5-19) 
(3-5-19) 式 就 是 非 线 性 模型 (2-1-4) 式 的 直接 解 算 结果 . 
三 、 直 接 解 算 步 又 


由 (3-5-17) 式 知 ,6 的 解 算 与 传统 方法 相似 . 所 不 同 的 就 是 在 按 (3-5-17) 式 求 8 之 前 ， 
要 先 用 参数 的 改正 数 dX 的 近似 值 dXo 计算 出 Yo, Zo ҖЕ С, р, С 和 万 .具体 解 算 步 
ЖК: 
(1) 按 传统 方法 确定 参数 X 的 近似 值 Xo. 
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(2) 对 非 线性 模型 (2-1-4) 式 中 的 非 线性 函数 F(X) 分 别 求 一 二、 三 阶 偏 导数 .并 用 Xo 
计算 B.C 和 DD 和 矩阵. 
(3) 选 定 适当 小 的 向 量 作 为 dXo, 或 按 传统 的 线性 近似 方法 求 dXo, B dXo = 
- (BB)-!B 
(4) 根据 (3- 5-8) 式 和 (3-5-9) 式 计算 Yo M Zo. 
(5) 根据 (3-5-11) 式 和 (3-5-12) 式 计算 C MD. 
(6) 根据 (3-5-13) 式 计算 В 和 ,然后 根据 (3-5-18) 式 计算 5, 最 后 根据 (3-5-19) 式 计 
AX. 
B 3-5-1 设 Xo=(5.4 -0.3),dXo=(-—0.005859 0.049949) ,用 直接 解法 解 算 
例 2-1-1 中 的 非 线 性 模型 . 
按 以 上 算法 编写 了 计算 机 程序 ,输出 结果 为 
$=(0.0256889296 – 0.005056793025)' 
X = (5.41882993 -– 0.255107793), || ДХ || =0.0015 
R = – 40.62921193 
Ж Хо ЖЖ, dXo= (0.006 0.045), 则 输出 结果 为 
8 = (0.0266988236 ~ 0.0003768357749)' 
Х = (5.420698824 -– 0.2553768358)', || АХ || = 0.0012 
К = – 40.63406453 
由 此 可 见 , 直接 算法 强烈 地 依赖 dXo 的 值 .只 有 在 ах, 较 精 确 时 , 才能 得 到 较 精 确 的 结 
果 . 由 于 ах, 在 求解 前 是 无 法 知道 的 , 因此 无 法 得 到 参数 的 高 精度 估 值 , VV 也 无 法 达到 最 


№. 





第 六 节 “ 非 线性 最 小 二 乘 估计 的 其 他 算法 


前 面 介绍 的 各 种 算法 , 都 需要 求 导 计 算 . 当 у(х) 比较 复 杂 时 , 求 导 很 困难 . 尤其 是 当 
A(X) 不 可 导 时 , 前 面 介绍 的 各 种 方法 均 不 能 应 用 . 为 此 ,下面 集 中 介绍 几 种 无 需求 导 计 算 的 
直接 搜索 算法 . 


一 .单纯 形 法 


单纯 形 法 是 按 给 定 方案 逐步 搜索 , 直接 比较 目标 函数 的 大 小 来 寻求 其 极 小 值 点 的 一 种 
方法 59( 林 洪 桦 , 1995) .单纯 形 是 指 以 上 维 空间 中 的 :+ 1 个 点 作为 顶点 所 构成 的 超 多 面 
体 .例如 ,二 维 空间 中 的 三 角形 , 三 维 空间 中 的 四 面体 等 均 为 单纯 形 .单纯 形 法 的 基本 原理 如 
下 : 

对 于 非 线性 模型 中 的 上 个 待 估 参 数 , 按 一 定 的 规则 选取 :+ 1 组 近似 值 , 构成 初始 单纯 
形 .用 此 ;+1 组 近似 值 计算 t +1 个 目标 函数 值 并 比较 其 大 小 . 找 出 最 大 的 目标 函数 值 , 并 
剔除 相应 的 那 组 参数 近似 值 .然后 按 一 定 的 换 点 规则 换 入 新 的 一 组 参数 近似 值 .用 这 组 新 的 
近似 值 与 其 余 的 上 组 近似 值 构成 新 的 单纯 形 . 如 此 反复 计算 、 比 较 、 噜 除 , 直至 最 小 的 目标 函 
数值 以 给 定 的 精度 逼近 其 极 小 值 为 止 .这 时 与 目标 函数 最 小 值 相 对 应 的 那 组 参数 近似 值 即 
为 参数 的 非 线 性 最 小 二 乘 估计 ， 
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实现 该 原理 首先 要 确定 初始 单纯 形 , 然后 要 制定 换 点 规则 . 这 两 个 问题 可 采用 如 下 方法 
解决 : 

1. 选取 初始 单纯 形 

对 于 非 线 性 模型 中 的 个 待 估 参 数 , 通常 选取 + 1 组 参数 近似 值 , 构成 具有 1 + 1 个 顶 
点 的 正则 单纯 形 ( 棱 长 相等 的 单纯 形 称 为 正则 单纯 形 ) . 一 般 先 任 选 一 组 参数 近似 值 Xe E 
为 顶点 ,其余 上 个 顶点 Xi, X,,…,X, 按 等 棱 长 ! 选取 , Вр 





Xo= (To 02 с хо), 
Xi= (zote ту+4 … хо +4) 
X22=(rotd zote … тои +) (3-6-1) 
Х,= (ху +4 ztd сз zote) 
式 中 ， 
с= Аты, а=#&®1—41, (3-6-2) 
V21 Zi 


于 是 , 初始 单纯 形 的 任意 两 个 项 点 间 的 距离 为 /, 即 
I Xo- X; 1 = Ve + (2 1)а? =: 
IX-X 1 =/2(с- а) = 1; ё,ј=1,2,-,25 з. 

例如 , 对 于 例 2-1-1 中 的 非 线性 模型 , 取 ! = 5, 用 第 一 个 观测 值 和 第 二 个 观测 值 可 算得 
Хо= (5.428 一 0.256), 由 (3-6-2) 式 得 c=4.829629131, d = 1.294095226. 于 是 初始 单纯 
形 的 三 个 顶点 为 : 

(5.428 —0.256),(10.256 1.038), (6.722 4.574) 

初始 单纯 形 于 图 3-6-1 所 示 . 

当然 , 初始 单纯 形 也 可 用 其 他 方法 选取 . 但 不 论 用 什么 方法 选 
取 , 都 应 该 保证 初始 单纯 形 的 :+ 1 个 顶点 中 , 除 Xe 外 , ЖЯ, 个 X, 
顶点 与 Xo 之 差 所 构成 的 1 个 向 量 

X1 ~ Xo, X2- Xo се, X,— Xo 

线性 无 关 , 即 3 个 顶点 不 共 线 ,4 个 顶点 不 共 面 等 . 

2. 换 点 规则 Xo 

剔除 目标 函数 值 最 大 的 项 点 后 ,应 换 和 新 的 顶点 .新 顶点 的 换 
人 和 需 遵循 一 定 的 规则 . 换 点 规则 分 为 反射 、 伸 长 .缩短 和 缩小 四 种 
情况 .为 了 叙述 方便 , 记 最 大 目标 函数 值 为 Ru, 相应 的 顶点 为 о х› 
Xuj; 最 小 目标 函数 值 为 Rj, 相应 的 顶点 为 X .下 面 结合 初始 单纯 
形 图 3-6-1 来 分 别 介绍 上 述 4 种 规则 . 

由 例 3-2-1 知 , 目标 函数 为 

R(X)= Р(Х) Хх) -2F (X)L 
5 (3-6-3) 


5 
zi | 
= тїў)е T2 —2т| >) Lie™? 
i=1 i=l 


如 


图 3-6-1 


(1) 反 射 
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将 初始 单纯 形 的 三 个 顶点 分 别 代 人 目标 函数 (3-6-3) 式 , 可 得 ， 
R( Xo) = – 40.63548307, К(Х,) = 3 866 953.823, К(Х,) = 3.29666 х 10°! 
剔除 目标 函数 值 最 大 的 顶点 Xu( 即 X). АН TAA POR Xe, BI 


ZOL 十 ZU ху тц; 
2 





Хес = 
再 计算 目标 函数 值 最 大 的 顶点 X 关于 该 中 心 点 Xe 的 反射 点 XR, 即 


Хк=(2лд— хд 2202-2022) 

图 3-6-2 表示 该 例 的 反射 .用 新 顶点 Xk 取代 Xu, 称 为 反射 . 

(2) 伸 长 

将 反射 点 Xk 代 人 (3-6-3) 式 , 计算 反射 点 的 目标 函数 值 Rk .车 Rk < Кү, 表明 反射 方 
向 能 使 目标 函数 下 降 . 沿 此 方向 伸 长 取 新 点 , 称 为 伸 长 . 伸 长 点 用 XE 表示 , 则 其 坐标 为 : 

хе = (1+ 7) хв T me (i=1,2,.…,1) (3-6-4) 

式 中 :7 称 为 伸 长 因子 , 一 般 取 7 =2. 

伸 长 后 , 计算 伸 长 点 XE 的 目标 函数 值 Re .车 Re < Ru, WA XE 取代 Xu, 构成 新 的 单 
纯 形 .图 3-6-3 表示 该 例 的 伸 长 . 





图 3-6-2 图 3-6-3 


(3) 缩 短 

反射 后 , 若 Rk > Ry, 表明 反射 点 仍 是 最 坏 点 , 即 反 射 方向 不 是 目标 函数 的 下 降 方向 . 这 
时 可 自 反 射 点 XR 向 中 心 点 Xc 缩短 距离 , 取 新 点 Xs. 自 反 射 点 Xk 向 中 心 点 Xe 缩短 距离 ， 
称 为 缩短 .缩短 点 Xs 的 坐标 为 : 

xsi= (1- @) те + Втр (3-6-5) 

式 中 :8 为 缩短 因子 , 一 般 取 8= 0.5. 

缩短 后 , 计算 缩短 点 Xs 的 目标 函数 值 Rs. 若 Rs< Ru, 则 用 Xs 取代 Xo, 构成 新 的 单 
纯 形 .图 3-6-4 表示 该 例 的 缩短 . 

(4) 缩 小 

当 反 射 无 效 , 即 Кр. Ке 和 Rs 均 不 小 于 Ru 时 , 可 将 整个 单纯 形 向 目标 函数 值 最 小 点 
Х| 处 缩小 .通常 将 单纯 形 缩小 一 半 , Вр | 
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Ti + ХЫ 


Ty T 2 (i=0,1,=, t; J=1,2,,£Ł) (3-6-6) 
图 3-6-5 表示 该 例 的 缩小 . 








图 3-6-4 图 3-6-5 


按 上 述 换 点 规则 逐步 变换 单纯 形 , 就 可 以 使 最 终 的 单纯 形 顶 点 的 目标 函数 最 小 值 以 给 
定 的 精度 逼近 其 极 小 值 .搜索 终止 条 件 为 


[HER -Ry <o (3-6-7) 

式 中 :85>0 为 给 定 的 误差 限 . 

根据 此 换 点 规则 , 可 总 结 出 单纯 形 法 的 计算 步骤 如 下 : 

选取 初始 单纯 形 . 

@ 计 算 各 顶点 的 目标 函数 值 R(X;) .车 R(X,) 满 足 (3-6-7) 式 , WEO. 

图 比较 各 项 点 目标 函数 值 的 大 小 , 找 出 最 大 的 目标 函数 值 Ru 和 最 小 的 目标 函数 值 
Ri .将 目标 函数 值 最 大 的 项 点 和 目标 函数 值 最 小 的 顶点 分 别 标定 为 Xu 和 Xi, 并 确定 中 心 
点 Xe. 

DHERA Xr, 并 计算 反射 点 Xr 的 目标 函数 值 Rg .将 Re 与 Ru 和 Ri 进行 比较 : 

(a) 若 RR 委 Ri, 则 转 @; 

WE RR 之 Ru, 则 转 @; 

(с) Е. < Rr< Ry, WA XR 代替 Xu 构成 新 的 单纯 形 , O. 

回 按 (3-6-4) 式 计算 伸 长 点 Xr, 并 计算 伸 长 点 Xe 的 目标 函数 值 RE. 比较 RE 与 Ri: 

(a) 若 Re< R, WA XE 代替 Xu 构成 新 的 单纯 形 , O; 

(b) 若 RE 之 Ri, 则 仍 以 Хр 代替 Xu 构成 新 的 单纯 形 , 转 @ 

@ 按 (3-6-5) 式 计算 缩短 点 Xs, 并 计算 缩短 点 Xs 的 目标 函数 值 Rs. 比较 Rs 与 Ru: 

(a) 若 Rs 之 Ru, 则 转 @; 

(b) 若 Rs < R, WA Xs 代替 Xu 构成 新 的 单纯 形 , EO. 

@ 按 (3-6-6) 式 缩小 单纯 形 后 , O. 

@@ 停 止 搜索 , 输出 X. 

根据 此 计算 步骤 , 我 们 编写 程序 并 计算 了 例 2-1-1 中 非 线性 模型 参数 的 非 线性 最 小 二 
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乘 估计 .初始 单纯 形 如 上 所 述 , 经 70 次 搜索 , 得 
X = (5.427324646 —0.255898000), | AX || =0.0074, R(X)= — 40.63548408. 
通过 实际 计算 , 我 们 体会 到 :单纯 形 法 虽然 具有 不 需求 导 计 算 的 优点 , 但 若 按 以 上 换 点 
规则 搜索 , 只 能 得 到 局 部 最 小 . 而 且 项 点 距离 !、 伸 长 因子 7 以 及 缩短 因子 6 等 都 对 搜索 有 
较 大 的 影响 . 因此 , 单纯 形 法 并 不 是 很 好 的 算法 .除非 研究 新 的 换 点 规则 . 


二 ,模拟 退火 算法 


模拟 退火 算法 (Simulated Annealing Algorithm, SAA) 是 一 种 求 目 标 函 数 极 小 值 的 全 局 
优化 算法 .其 基本 思想 来 源 于 统计 物理 学 57( 李 士 勇 , 1998) 

当 金属 在 高 温 下 熔化 时 , 所 有 原子 都 处 于 高 能 的 自由 运动 状态 . 随 着 温度 的 降低 , 原子 
的 自由 运动 减弱 , 物体 的 能 量 随 之 降低 . 只 要 在 凝结 温度 附近 使 温度 下 降 足 够 慢 , 原子 排列 
就 越 来 越 有 规则 , 从 而 形成 结晶 . 这 一 过 程 称 为 退火 过 程 .这 一 过 程 可 用 来 模拟 多 元 目标 函 
数 的 优化 过 程 .用 物理 上 的 退火 过 程 来 模拟 多 元 且 标 函数 的 优化 过 程 , 称 为 模拟 退火 算法 ， 

模拟 退火 算法 可 概述 为 : 

Ф 选取 初始 点 Xo 和 初始 温度 Т, #=1. 

© 计算 初始 点 Xo 的 目标 函数 值 R(Xo). 

@ 车 T=0, 则 转 @. 

Ф 对 Xo 进行 随机 扰动 , 得 到 新 点 X. 

© 计算 新 点 X, 的 目标 水 数值 R(X,) 和 目标 函数 之 差 AR = R(X)) - КОХ): 

(a) 若 AR <0, 则 降温 ; 

Т 
T= lg(10 + /Ek) 

Ве Xo=X R(X0)= R(XI), X= XI,k=k+1, 转 @. 

(b) 若 AR >0, 则 产生 一 个 [0,1] 上 的 随机 数 A, 并 按 (3-6-9) 式 计算 接受 非 优点 X 的 
概率 . 


(3-6-8) 


P = expl -28) (3-6-9) 
然后 比较 A ЭР: 
b.1 车 P> 有 A, 则 接受 非 优点 , 即 Xo = Х,, #80). 
b.2 #0). 
输出 Xo. 


按 此 算法 , 有 一 定 的 概率 跳出 局 部 最 优 解 . 从 而 有 可 能 找到 全 局 最 优 解 . 由 (3-6-7) 式 和 
(3-6-8) 式 知 , 接受 非 优 点 的 概率 由 AR 和 温度 T 确定 . 当 温度 Т 一 定时 , ЛЕ 越 大 , 接受 非 
优点 的 概率 就 越 小 ; AR 越 小 , 接受 非 优点 的 概率 就 越 大 . 当 AR =0 时 ,只 要 T 不 等 于 0, 则 
接受 非 优点 的 概率 为 1; 因此 , 为 了 在 AR 较 小 时 不 接受 非 优点 ,可 对 AR 进行 限制 . 比如 ， 
当 AR<1 时 , 今 AR=1. 另 外 , 当 AR 一 定时 ,由 (3-6-8) 式 知 , 搜索 开始 时 , 由 于 温度 较 高 ， 
接受 非 优点 的 概率 较 大 . 随 着 最 优 解 的 不 断 有 逼近 , 温度 逐渐 下 降 , 接受 非 优点 的 概率 也 逐渐 
碱 小 . 

模拟 退火 算法 虽然 可 得 到 全 局 最 优 解 ,但 是 最 优 解 的 搜索 是 在 整个 定义 域 中 反复 随机 
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搜索 , 搜索 时 间 很 长 . 

应 用 模拟 退火 算法 , 我 们 编写 程序 并 计算 了 例 2-1-1 中 非 线性 模型 参数 的 非 线性 最 小 
二 乘 估计 . 经 很 长 时 间 的 搜索 , 温度 下 降 到 0, 得 

X = (5.423806309 —0.255871001), || AX || =0.0040, R(X)= ~ 40.635488853. 


三 .遗传 算法 


遗传 算法 (Genetic Algorithm, AG) 是 建立 在 自然 选择 和 自然 遗传 学 机 理 之 基础 上 的 迭 
代 自 适应 概率 性 搜索 算法 657 ( 李 士 勇 , 1998) . 该 算法 通过 编码 .初始 群体 生成 .适应 度 评价 
检测 .选择 交叉、 变异 等 过 程 模拟 生物 进化 , 实现 模型 自学 习 与 优化 的 目的 S81( 陈 国良 . 王 
照 法 、 庄 镇 泉 等 ,1996). 这 一 算法 最 先 由 美国 密 执 安 大 学 的 ].H. Holland 教授 于 1975 年 提 
出 .1975 Æ J.H. Holland 出 版 了 遗传 算法 历史 上 的 经 典 著作 (自然 和 人 工 系 统 中 的 适应 
ЖЕ), 该 著作 系统 地 阑 述 了 遗传 算法 的 基本 理论 和 方法 , 并 提出 了 模式 定理 (Schemata 
Theorem) ,证 明 在 遗传 算 子 选择 、 交叉 和 变异 的 作用 下 , 具有 低 阶 、 短 定义 距 以 及 平均 适应 
度 高 于 群体 平均 适应 度 的 模式 在 子 代 中 将 以 指数 级 增长 . 这 里 的 模式 是 某 一 类 字符 串 , 其 某 
些 位 置 有 相似 性 . 同年 , DeJong 完成 了 他 的 博士 论文 (遗传 自 适应 系统 的 行为 分 析 》, 将 Hol- 
land 的 模式 理论 与 自己 的 计算 试验 结合 起 来 , 进一步 完善 了 选择 .交叉 和 变异 操作 , 提出 了 
一 些 新 的 遗传 操作 技术 . 

进入 20 世纪 80 年 代 后 , 遗传 算法 得 到 了 迅速 发 展 , 不 仅 理 论 研究 十 分 活跃 ,而 且 在 越 
来 越 多 的 应 用 领域 中 得 到 应 用 .1983 年 , Holland 的 学 生 Goldberg 将 遗传 算法 应 用 于 管道 煤 
气 系统 的 优化 , 很 好 地 解决 了 这 一 非常 复杂 的 问题 .1989 年 , Goldberg 出 版 了 (搜索 .优化 和 
机 器 学 习 中 的 遗传 算法 ) 一 书 , 这 本 书 可 能 是 遗传 算法 领域 被 引用 次 数 最 多 的 书 , 为 这 一 领 
域 莫 定 了 坚实 的 科学 基础 . 

遗传 算法 的 一 般 过 程 由 初始 化 .选择 .交叉 和 突然 变异 四 个 部 分 组 成 . 其 结构 见 图 
3-6-657( 李 士 勇 , 1998). 





图 3-6-6 
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用 遗传 算法 求 最 优 解 的 步骤 如 下 : 

O 编码 ;用 一 定 比 特 的 0、1 二 进 制 数 对 自 变量 进行 编码 , 形成 基因 码 链 . 每 一 个 码 链 代 
表 一 个 个 体 . 

O 产生 群体 ; 令 上 = 0, 随机 产生 ”个 个 体 , 形成 群体 P(:). 该 群体 代表 优化 问题 的 一 
些 可 能 解 的 集合 . жеты Ее ЫН Ж. 模拟 生物 进化 过 程 , 存 优 汰 劣 , 从 而 选择 出 
优秀 的 群体 和 个 体 . | 

@ 评价 : 按 编码 规则 , 将 群体 P(i ) 中 的 每 一 个 个 体 的 基因 所 对 应 的 自 变量 值 X, 代 人 

目标 函数 , 算出 各 个 个 体 的 目标 函数 值 R(X;). R(X;) 越 小 , 说 明 该 个 体 的 适应 度 越 高 , 更 
适合 生存 环境 . 如 果 最 优 个 体 的 适应 度 达到 某 一 阔 值 或 最 优 个 体 的 适应 度 和 平均 适应 度 不 
再 下 降 , 则 转 @. 

Ф 选择 : 按 一 定 的 概率 从 群体 P(t) 中 选 出 m 个 个 体 , 作为 双亲 繁殖 后 代 , 产生 新 的 个 
体 加 入 下 一 个 群体 P(t + 1) 中， 

© 交叉 ;对 于 选中 的 用 于 繁殖 的 每 一 对 个 体 , 随机 地 选择 同一 整数 ,将 双亲 的 基因 和 链 
在 此 位 置 相互 交换 . 

变异 :以 一 定 的 概率 p 从 群体 P(t + 1) 中 随机 选取 若干 个 体 . 对 于 选中 的 个 体 , 随机 
选取 某 一 位 进行 取 反 运算 , 即 由 1 一 0 或 由 01. 变异 模拟 了 生物 进化 过 程 中 的 基因 突变 现 
象 . 

Ф #0. 

© 输出 最 优 解 . 

遗传 算法 具有 许多 独特 的 优点 : 

1 .不 必 非 常 明确 地 描述 问题 的 全 部 特征 , 其 通用 性 和 稳健 性 强 , 能 很 快 适 应 问题 和 环境 
的 变化 ;对 领域 知识 依赖 程度 低 , 不 受 搜索 空间 限制 性 假设 的 约束 , 不 必要 求 连续 性 .可 导 或 
单 峰 等 ， 

2. 从 多 点 进行 搜索 , 如 同 在 搜索 空间 上 覆盖 的 一 张 网 , 搜索 的 全 局 性 强 , 不 易 陷入 局 部 
最 优 ;具有 并 行 性 , 非常 适合 于 并 行 计算 . 

在 遗传 算法 的 研究 中 , 主要 有 下 列 三 类 研究 方向 : 

1 .研究 遗传 算法 本 身 的 理论 基础 . 

2. 用 遗传 算法 作为 工具 解决 工程 问题 , 主要 是 进行 优化 , 关心 的 是 是 否 能 在 传统 方法 上 
有 所 提高 . 

з. 用 遗传 算法 研究 演化 现象 , 一 般 涉及 到 人 工 生命 和 复杂 性 科学 领域 . 
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第 四 章 “” 非 线性 最 小 二 乘 估计 的 
统计 性 质 与 精度 评定 


第 一 节 “ 非 线性 最 小 二 乘 估计 的 统计 性 质 


在 线性 模型 L = BX + А 中 , 当 A 服从 正 态 分 布 时 , 最 小 二 乘 估计 Х 是 参数 X 的 最 优 
无 偏 估计 , 并 且 有 E(V) =0, Уа(Х) = о2(В'В) !, tr (Уаг(Х)) = тіп, Е(У'У) = (п - 1) 
o°, Маб V)=0°(Qu - В(В'В) B). ЯБ, ЗЕЯ = р(х) + A tP, Чд PRA 
EAD, X, V 是 否 还 有 这 些 优良 统计 性 质 呢 ? 下 面 就 来 讨论 这 个 问题 24 ( 韦 博 成 ， 
1989). 


一 、 正 则 条 件 


要 研究 非 线性 最 小 二 乘 估计 的 统计 性 质 , 需要 相当 繁复 的 正则 条 件 . 作为 在 测量 平 差 中 
的 应 用 , 我 们 在 假定 А 为 同 精度 独立 正 态 随机 误差 , 即 A 一 N(0,a2T) 的 前 担 下 , 把 条 件 予 
以 放宽 . 

条 件 ( i ) 在 非 线性 模型 (2-1-4) 式 中 , 假设 非 线性 函数 /(X) 是 紧 集 交 上 关于 X 的 连 
续 函 数 . 随机 误差 A 一 N(0,o?71), 参数 的 真 值 记 为 六, 它 是 的 内 点 . 

RIFI) H лоў, 函数 


aX DED GO- 


在 Yx 交 上 一 致 收敛 到 p(X,X), 且 p(X,X) 在 X 上 存在 惟一 的 极 小 值 点 . 
ЖЇК ОЙ) СХЕ У БЕ X 存在 一 阶 连续 导数 , 且 在 X 的 某 个 邻 域内 有 


lim ЕВ'(Х)В(Х) = A(X) (4-1-1) 


式 中 ;Q(X) 为 正定 矩阵 . 
KIEO) A(X) 在 多 上 关于 X 存在 二 阶 连续 导数 , 且 在 X 的 某 个 邻 域内 有 
ix Pf |? 
limy >, 22-2) =Е;(Х) (4-1-2) 


条 件 (V ) “假定 模型 函数 f;(X) 在 上 存在 三 阶 连续 导数 , 并 且 下 列 有 关 导 数 的 极限 


存在 
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1 ч of PS: 


t 
mson Zi дт; дтудть 


imt У) [E] = Gx(X)< + oo 


ноо Nn 24 дх;дх;дхь 





= Ej(X)< + оо 


二 、 非 线性 最 小 二 乘 估计 的 统计 性 质 


设 非 线性 模型 如 (2- 1- 4) 式 所 示 , 即 工 = AF(X)+4, 由 于 最 小 二 乘 估计 文 (上 ) 和 Л = 
一 了 (XX) 都 是 随机 变量 = (1. Lz … 了 工 ,) 的 函数 , 故 称 其 展开 式 为 随机 展开 64 ( 韦 博 
№, 1989). FEL Х 的 随机 展开 为 基础 来 讨论 非 线性 最 小 二 乘 估计 的 统计 性 质 ， 

1. 渐 近 性 

定理 4-1-1 若非 线性 模型 (2-1-4) 式 满足 正则 条 件 ( i )— (1), 则 参数 X 的 非 线 性 
最 小 二 乘 估计 广 为 渐 近 正 态 的 , 且 以 下 关系 式 成 立 : 


Ул(Ж-Җ)—=М(0,о127'(®)) (п) (4-1-3) 
式 中 , 符号 一 * 表示 依 概率 收敛 于 
Х-Х=АХ=(В'В)`!В'А +а, (4-1-4) 


其 中 a, 满足 条 件 /na, 一 0(n 一 %). 
HERA: 先 证 (4-1-4) 式 . 因为 VV= | у(х)- 1. |? ЕХ 处 达到 最 小 值 . 因此 有 


























YY) =0. 根 据 正则 条 件 (前 ) 和 (iV), 2 | 可 在 处 展开 为 
Х=Х х= < 
ду'у (ауу \ ауу _ 
| 2X 、 | =| 2X у) әх? АХ + 7АХ =0 
其 中 AX =å - X, 当 AX 一 0 时 , y 一 0. 因为 
IVV Zay Б 
X 1.7278 
VV р 
jx ү. ^2ЁВ+2Ў%# 
所 以 有 
BV+BB+[VI[W]AX+ УДХ =0 
顾及 立 = -~ A, 得 
АХ = (ВВ) «ВА ~ [Д] ]ЈАХ – yAX) 
于 是 AX 可 写 为 
АХ =(В'В)С!В'А +а,„ 
其 中 : а, = - (BB) ULA JUW ]AX + yAX) 
— -1 —— 
=- 15g] (ЧАЎ ах + Lyax | 
п п п 
而 


Vnan = - (182) "гаі Јах+ | rax] | 
由 于 W 的 元 素 wi 是 函数 /;(X) 的 二 阶 偏 导数 , 故 当 поо, Ж 
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HE Jax=o (4-1-5) 
Jrax—o 
n 
所 以 V nan >0, 于 是 (4-1-4) 式 得 证 . 
下 面 再来 证 明 (4-1-3) 式 . 
将 (4-1-4) 式 两 边 乘 以 Vn ,得 
а(х - Х)= | 18в В| вд + ла, | (4-1-6) 
对 (4-1-6) 式 取 期 望 , 得 
Е(/л(Х-%))= tg В} [BEC +E а, 
n 
因为 ECA) =0, /ma ds me) 
所 以 当 2 一 oo 时 ,有 
| El(/n(X-X))=0 (4-1-7) 
又 当 mn 一 co 时 ,(4-1-6) 式 可 写 为 
о. аір, 
0-0) = |188) 天 ja (4-1-8) 








根据 (4-1-8) 式 , 应 用 协 方差 传播 律 , 得 











Var(V/n(X-X))=| LBB) 7-87 ә?) 72 isa) |40188) 
由 条 件 ( iv ) 知 
(188) =п-(Х) 


所 以 , 当 п» со, 
ЛОХ) №00, 2074 )) 
于 是 (4-1-3) 式 得 证 . 
定理 4-1-2 若非 线性 模型 (2-1-4) 式 满足 正则 条 件 (| )~(iv). 则 估计 量 S? = 








nt 
满足 以 下 关系 : 
L 2 
52 一 一 ~ x (nL) (n>%) (4-1-9) 
S= ASMA +a, (4-1-10) 
其 中 ; SN= 了 I- Sr, Sr=B(B B) -1B’, a, >0, 而 且 52 5 ВОХ - Хәл. 
证 明 : 欲 证 明 (4-1-9) 式 和 (4-1-10) 式 ,只 需 证 明 : 
V'V=A'SpA + Bn, B.—0 (4-1-11) 


即 可 . 
由 条 件 ( 前 ) 和 (iv ) 可 知 , VV 在 真 值 文 处 展 为 泰勒 级 数 可 取 至 二 次 项 , Вр 
УУ= УУ +2У'В(Х-Х)+(Х-Х)ВВ(Х-Х) 
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(ХХИ Ц{#1‹(Х-Х)+у(Х-Х 1? 
由 (4-1-4) 式 知 
B(X - Х)= S14 + Ва, (4-1-12) 
ЙЖ\У=-лд,/ У=Л'д,& 
VV=A'A-2A’'Sm —2А'Ва„ + (574 + Ba,) (S74 + Ва„) 
-(АХ) А LČ KAX) +y {АХ 1? 
= А'А- А'5тА + а„В'Ва„—- (АХ) ТАТ (АХ) + у AX |? 


= A'SNA + 1-(/ла„)'ВВ(/ла„) -FAXO ENAX) +y || АХ |? 
1 п 


当 nn 一品 时 , 上 式 中 除 第 一 项 外 都 趋 于 零 . 因此 (4-1-11) 式 成 立 .由 (4-1-11) 式 可 推出 
(4-1-10) 式 .由 (4-1-10) 式 可 得 到 (4-1-9) 式 . 

另外 , 由 于 SA 和 SnwA 互相 独立 , 因此 由 (4-1-11) 式 和 (4-1-12) 式 可 知 52 5 B(X- 
义 ) 浙 近 独 立 .证 毕 . 

2. 有 偏 性 

以 上 讨论 了 非 线 性 最 小 二 乘 估计 的 渐 近 性 质 .那些 讨论 实际 上 相当 于 是 在 对 非 线性 模 
型 线性 近似 的 基础 上 进行 的 . 其 结果 显然 不 够 精确 , 甚至 还 掩盖 了 某 些 重 要 性 质 . 因 此 , 为 了 
进一步 研究 非 线性 最 小 二 乘 估计 量 的 统计 性 质 , 必须 对 АХ = X -X 进一步 展开 , 取 至 二 次 
项 .为 书写 方便 , 分 别 用 下 列 符号 表示 VV 对 X 的 一 二、 三 阶 偏 导数 : 



































ү-°УУ _ уу ZVY 
IX 1х ӘХ? xey? ӘХ? |x-x 
~ дуу ы VV z VV 
V = 一 一 V= ,V= -1- 
ӘХ (х= ӘХ? |ү-$ V= оҳ? Х=ї (4-1-13) 
则 
ў'=ўЎ'+ЎАХ+ТАХ'УАХ + Уу | АХ 12=0 (4-1-14) 
因为 
V = -2BA, VAX=2(BB - [AW])AX 
З АХЎ АХ = (ВАХ) Јах + АХВ С АХ 
ас) 
ZAX |4| S35] [AX 
将 以 上 各 式 代 人 (4-1-14) 式 , 得 
BBAX=BA+[A’][W]AX-[(BX) ЈС ax - АХВ ЈАХ 
1 1 (25) 1 2 
+ АХ |4553) ЈАХ z7 АХ 1 
于 是 有 
АХ=Х-Х= (ВВ) Вл + (ВВ) (А -BAX)Y [WIAX 
-Lax [E LW JAX} + O, Ca?) (4-1-15) 


(4-1-15) 式 就 是 AX = X -X HORNER. 当 n> obf, RI 0,(n EF 0. 
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(4-1-15) 式 右 端 仍 含 有 АХ, 为 了 消除 之 , 我 们 将 (4-1-4) 式 代 人 (4-1-14) 式 , 并 将 与 a， 
有 关 的 项 并 人 O,(n 22) 中 ,于 是 可 以 得 到 
АХ=Х-Х = (ВВ) Вл +(В'В)!1[(А- BAX) ][W]AX 
-Jat ВВВ) 19 ВВ) 1871 +0, (п 722) (4-1-16) 
(4-1-16) 式 给 出 了 参数 x 的 最 小 二 乘 估 计 文 与 随机 误差 项 A 之 间 的 关系 .由 于 LL=/ 
(Х)+ A, 所 以 (4-1-16) 式 同时 建立 了 非 线 性 最 小 二 乘 估计 廊 与 观测 值 L 之 间 的 关系 .这 
一 关系 对 分 析 研 究 非 线 性 最 小 二 乘 估计 的 性 质 是 很 重要 的 . 
定理 4-1-3 若非 线性 模型 (2- 1-4) 式 满足 正则 条 件 ( i ) 一 (Vv ), 则 AX= 文 - 久 的 二 
阶 展开 式 可 由 曲率 立体 阵 G MH 表示 为 
АХ Х- = Ме+ Mi][G]r- 方 rHr +0,(п 732) (4-1-17) 


др: г= ОА, А=М'А (4-1-18) 
ЖЕО, N 辣 (2-3-1) 式 . N 的 列 为 X 处 法 空间 的 标准 正 交 基 . M, G, H 等 都 在 区 处 计算 . 
WEAR: 由 于 
(ВВ) = ММ, 有 A=RQA=R 
因此 
(ВВ)-1В'А= ММ B'A = MA 
式 中 : М 由 (2-3-2) 式 确定 .将 其 代入 (4-1-16) 式 ,得 


АХ=Х -Х = Ме+ MM LA'Sw][ 六 ]Mr - 方 
由 (2-3-4) 式 和 (2-3-7) 式 知 
U=MWM, 8% = NN 
顾及 方 括 号 乘法 的 运算 规则 及 立体 阵 的 定义 可 得 
MM'[A'Sn][W]Mr = MIANN IJ{MWM]r 


= ML ПМ ИСЕ = МАИС] 


тМ'{Ї{В'1(Ў]Мт + O(n 722) 


мм'{- eM IÈ JPM} =- MM |r {В JLU]! 
=- MIr[IMB JLU] 
=- 工 Mir[Q'LU]rl = -去 MrHr) 


将 以 上 各 式 代 人 (4-1-16) 式 , 即 得 (4-1-17) 式 . 
定理 4-1-4 若非 线性 模型 (2-1-4) 式 满足 正则 条 件 (1) 一 (v ), 则 非 线 性 最 小 二 乘 估 
计 为 有 偏 估计 , 其 偏差 为 


Bias() = -®Ми(Н)+ O(n?) (4-1-19) 
证 明 : 对 (4-1-17) 式 取消 数学 期 望 , 并 顾及 (4- 1- 18) 式 得 
E(X~X)= MQ'E(A)+ МЕ([А' 10С]=) -让 ME(r'Hr) 


因为 E(A)=0 
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EA JLG]e)= SEA бт) = У Е(А)6,Е( е) =0, 
i= i=1 


而 Е(тН)=Е(и(Нит )) = (НО) 
式 中 H; 为 H 的 第 i 层 , 又 tr(H)=(tr(H1),tr(H2),…,tr(H;)) ,所 以 


Е(Х-Х)= -SMu(H)+ On- 2) 


(4-1-19) 式 表明 , 非 线性 最 小 二 乘 估计 文 的 偏差 与 非 线 性 模型 的 固有 曲率 无 关 , 仅 与 
参数 效应 曲率 有 关 . 这 就 是 说 非 线 性 最 小 二 乘 估计 X 的 偏差 取决 于 参数 的 选择 . 另外, 由 于 
模型 的 固有 非 线性 强度 通常 较 弱 , 因此 , 非 线性 最 小 二 乘 估计 文 的 偏差 Bias( 文 ) 可 以 用 来 
衡量 非 线 性 模型 的 非 线性 强度 . 一 般 用 文 的 各 分 量 的 百 分 偏 差 衡 量 之 ,X 的 各 分 量 的 百 分 
偏差 记 为 


Віаѕ( X; 
% Віаѕ( X; ) = 100 =“ Віаз(Х:) % (4-1-20) 


АЯКА 20А НИНЕН. ыо 87 авн, A 
为 当 百 分 偏 差 超过 1%, 就 说 明 非 线性 模型 强度 较 强 
由 于 oz ЯХ 都 未 知 , 故 按 (4-1- 19) 式 无 法 计算 偏差. 因此, 实用 上 总 是 用 52 和 X 代替 
0? 和 廊 , 故 偏差 的 实用 形式 为 
Вїаз(Х) = - (ВВ) -Bu((BB) 1) (4-1-21) 
证 明 : 略 去 高 阶 项 , 并 由 立体 阵 的 性 质 知 
Ваз(Х)л=-®Ми(Н)= -SIMIHD= - 1М109110) 


z? z? __ 
= 一 чм JI С]) = - 2 МӨ ul МЭМ) 


= - (ВВ) B (MMW) 


o ~ 


(BB) E rB B) W) 


用 估 值 代替 真 值得 
Bias(X)~ 一切 (BB) ВВВ) "IW 
以 上 推导 用 到 了 MM = (ВВ)! 
MQ’ = MMRQ = (В'В) !В’ 
3. 方 差 非 最 小 性 
为 了 讨论 这 一 性 质 , 我 们 先 证 明 两 个 引 理 . 
引 理 4-1-1 由 (4-1-18) 式 定义 的 r 和 4 均 为 正 态 变量 , zr ~ N (0, I), А 一 
№(0,021), Нт 与 4 相互 独立 .于 是 下 列 各 式 成 立 . 


Е(г ст) =0, Е(гт,гт„)=0 (4-1-22) 
Е(тсут) = в*( ò; ды + даду к) (4-1-23) 
Е(Атуть) = 0, Е (Аут) = = (4-1-24) 


ҖР.д,=1( = )),8,=0(15®)) 
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证 明 : 由 于 (Q, N ) 为 正 交 和 矩阵 , 因此 根据 с 与 的 定义 有 | "| = | Sja- N0, е2). 
即 (zc, ) 与 4 同 分 布 . 因 此 , r 和 A 皆 为 正 态 变量 且 相 互 独立 .显然 (4-1-22) 式 和 (4-1-24) 
式 成 立 .而 (4-1-23) 式 是 标准 正 态 变 量 的 四 阶 矩 公式 , 所 以 引 理 得 证 . 

引 理 4-1-2 B STARA n Xt xi 阶 和 xtxzt 阶 立体 阵 . 它 们 的 每 层 都 是 对 称 
矩阵, 又 设 т 为 : 阶 标准 正 态 随机 向 量 , 即 e~ N(0,o*71), 则 有 

E(r'Sr)=o?tr(S) 
Cov( r Sr, r Tr) =204 5 У) 5$ыТи=2о°*(їт( S:T;)) 

RH: Sy 和 Th 为 立体 阵 S、T E, DER n ER m 维 向 量 . (tr(S;T;)) 表 示 在 (i,j) 处 元 
素 为 tr(S;T;) É nxm ТАЁ. 

ПЕЕВ: E(r'Sr) 的 第 ;个 元 素 为 E(r'Sir) = cztr(Si), 故 由 tr(S) 的 定义 知 E(r'Sir) = 
co2tr(S) 成 立 . 

又 因为 Cov(r'Sr, rTr) 在 (i,;) 处 的 元 素 为 


Cov(r’Sr,r Tr)=E(( 5 S) Smrti) 5 5 Tjetste)) ~ (Е(т'5т))(т Ту) 
1 гл 11 


= 2 ЗаеТ. el быб + ПУА + Skeb) 07 7 ol trS;) (trQ;) 
Ј 1 


=204 > У) Sie Tte 


=} 1=1 
于 是 有 Cov(r'Sr,r'Tr)=2c4 У) У) SuTh 


定理 4-1-5 设 非 线性 模型 (2.1.4) 式 满足 正则 条 件 ( i )~(Vv)》, 则 非 线性 最 小 二 乘 估 
计 文 的 方差 达 不 到 最 小 值 ( CR 下 界 ), 且 可 由 曲率 立体 阵 表示 为 


Уат) (ВВ) + о M2AG+ Аң)М' (4-1-25) 

式 中 : Ас = 5 G? (4-1-26) 
s=1 

Ан= DY HsHi= (и(НН,)) (4-1-27) 


M 的 定义 同 前 . G, 为 固有 曲率 立体 阵 G 的 第 ; 层 ; H; 表示 参数 效应 曲率 立体 阵 态 的 第 ; 
EH KRH 在 (s,e) 处 的 1 维 向 量 ; Ar = (HH) RR Ан 的 第 i 行 第 ) 列 元 素 为 
tr( H;H;). 

证 明 : 略 去 (4-1-17) 式 中 的 高 阶 余 项 后 , 应 用 协 方差 传播 律 , 得 

Маг(Ж)=М}Маг(г )+ Var([4 J[G]r) + 了 Var(z'Hr) + ЖОЙ} М' (4-1-28) 

由 引 理 4-1-1 知 , 各 交叉 项 皆 为 零 .例如 Соу( с, ГА ][G]jr) 在 (i,j) 处 的 元 素 为 


Е( 53 Sa Gnr] = У) У) С„Е(тАть) = 0 
j=1 k=l ji k=1 


由 引 理 知 
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Cov([a’ j[G]r,r Hr)=0 
Cov(r,r Hr)=0 
再 看 (4- 1-28) 式 的 前 三 项 
МУа(т) М =o2MAM = с?(В'В) 1 
这 就 是 (4-1-25) 式 的 第 一 项 .而 


Маг(ЇА J][G]r)= Var( У AGs) 


= у Var( AGr) + 交叉 项 
因为 交叉 项 为 零 , 故 由 г 与 从 的 独立 性 可 得 


Маг([А][С1]г)= УЛ огуз (буг) = 25 G,Var(r)G; 


于 是 MVar([X’][G]r)M = otMAcM .这 就 是 (4-1-25) 式 的 第 二 
对 于 最 后 一 项 , 因 Varr Hr) 在 (i,j) 处 的 元 素 为 Cov(r Нит, Нут). В т ЕЖ 
KH; ЖН, 的 对 称 性 , 并 顾及 引 理 4-1-2, 得 


Cov(r Hir, т'Нт) =20tr( HH;) = 254 > >, НН, 


о. Уаг(с'Не) = о°* эрэ НыНр= otAp. ғат MVar(r Нг) М" - 1. 4MApM ,这 
就 是 (441.25 ) 式 的 第 二 中 

由 于 观测 向 量 工 的 分 布 关 于 X 的 Fisher 信息 阵 为 c 2(В'В). ВТ (4-1-25) 38995 — 

项 即 为 CR 下 界 ,而 MAGM = > MG?M’, MAM‘ = У У) MH; H&M 都 是 非 负 矩阵. 


故 只 要 立体 阵 G 和 日 不 恒 жж, 则 (4- 1-25) 式 的 第 二 .第 三 项 顶 中 的 两 个 矩阵 都 是 正定 矩 
阵 . 于 是 (4-1-25) 式 中 的 第 二 、 第 三 两 项 都 大 于 0. 因此 , 非 线性 模型 参数 的 最 小 二 乘 估计 文 
的 方差 一 定 大 于 CR 下 界 ( 即 Var( 文 ) > az(B 号 ) 号 .所 以 非 线性 最 小 二 乘 估计 文 的 方差 达 
不 到 最 小 值 . 定理 证 毕 . 


第 二 节 PRY о 的 估计 


因为 残 差 向 量 的 平方 和 VV 中 包含 了 单位 权 方 差 o? 的 信息 , 所 以 为 了 得 到 单位 权 方 
差 o 的 估 值 o?, 有 必要 先 讨 论 非 线 性 最 小 二 乘 估计 中 残 差 向 量 у 的 展开 式 及 其 期 望 和 方 
差 (31( 王 新 洲 ,2000). 


一 、 残 差 向 量 V 的 展开 式 


定理 4-2-1 设 非 线性 模型 (2-1-4) 式 满足 正则 条 件 ( )—( у), 则 残 差 向 量 V Ж 
开 为 
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V=Af-4=-NìÀ + Q[A' J[G]r+ FN(rGr)+ O,(n-!) (4-2-1) 
AP: др fX) - 50) = Qr + А106]. + (ебе) + O(a) (4-2-2) 
称 为 拟 合 误差 向 量 . 


(4-2-1) 式 与 (4-2-2) 式 仅 与 非 线 性 模型 的 固有 曲率 有 关 , 在 参数 变换 下 保持 不 变 . 
证 明 ; 先 证 明 (4-2-2) 式 .将 Af ТЕХ 处 展开 可 得 


д ‚ 2 
Af = Ах + Ах ТАХ + O,( [АХ |?) 


= ВАХ + ŁAX'WAX + О,( | АХ |?) (4-2-3) 
将 (4-1-17) 式 两 边 左 乘 B, 得 (4-2-3) 式 的 第 一 项 


ВАХ = ВМт + BMI 1161 - эе Не| + О, (п!) 


= 9 + QIE Gle- Не + 0,0970) (4-2-4) 


ЯХ ДХ = АХ + а, АХ = (В'В) !В'А = МОА = М. = О, (п 12), а= О, (пт), F 
是 (4-2-3) 式 的 第 二 项 可 写 为 
广 AX'WAX = 1 АХУ АХ + 1а We + AX Wa 


= 1 M'WMr + 12 па) (па) + п 20 ЛАХ) (па) 


2 2 
= reUr + On (4-2-5) 

将 (4-2-4) 式 和 (4-2-5) 式 代 人 (4-2-3) 式 ,得 
Af= Qr + 9157016) + 370+ - (Не) + 00,0971) (4-2-6) 


由 立体 阵 的 运算 性 质 , 并 顾及 U=[N][G]+ [Qj][H], 则 (4-2-6) 式 的 第 三 .四 项 可 合 
并 为 


1 
2 


tUr- (Не) = 50е ТИН] 
= 1.10-100н)1 = 1006) = (сс) 
将 其 代 人 (4-2-6) 式 , 即 得 
Af=Qr + ФАС] + FN(rGr) + 00,08 77) 


下 面 再 来 证 明 (4-2-1) 式 . 


因为 
V=Qr-å +QlrJLG]e + ÈN(C'Ge)+ On 7!) 
而 前 两 项 为 
От- А= ООА - Д = - (1- ӘО’)ДА = ~ 50А = – ММА = – М 
所 以 有 
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ЕЕ H:i Meg a ea 





у= - № + 912706] + (Сс) + О, (nt). 

由 于 (4-2-1) 式 和 (4-2-2) 式 中 仅 出 现 固 有 曲率 立体 阵 С, 而 与 参数 效应 曲率 无 关 , 所 
以 V 和 Af 的 展开 式 在 参数 变换 下 保持 不 变 . 定理 证 毕 . 

二 、 残 差 向 量 у 的 期 望 和 方差 

对 (4-2-1) 式 两 边 取 期 望 得 

Е(У) = - МЕ(А) + QEA 1С] е) + у МЕ(с'бе) + 00,097) 
因为 E(M) =Е(МДА) = NE(A)=0. 又 由 定理 4-1-4 和 引 理 4-1-2 的 证 明知 
ECLA IIG]jz)=0,E(rGr)=o2trG) 
所 以 残 差 向 量 V 的 数学 期 望 为 
E(V)= SNu(G)+ O(n-!) (4-2-7) 

再 对 (4-2-1) 式 两 端 取 方差 , 得 

Var(V)= Var(NA) + Var(Q[A НС ЈЕ) + 地 Var(N(r'Gr))+ 交 叉 项 (4-2-8) 


由 定理 4-1-5 的 证 明知 交叉 项 缘 为 零 . 再 由 协 方差 传播 健 知 
Var(NA)= М№Маг(А) № =NVar(NA)N 
= а ММ'ММ' = o? ММ" = о? Sy (4-2-9) 
Var(Qla 10610) QVar([A JEG]r)Q = оАо" (4-2-10) 


Var(N(r'Gr))= È Уак гг) = 10 4N( > >) Сыс) № 


stot NASN’ (4-2-11) 


式 中 : Аф = У У быб (4-2-12) 
以 上 推导 用 到 了 
| 
Уаг(т'Сбт) = 20%Аф 
(4-2-13) 式 的 推导 详 见 定理 4-1-5 的 证 明 . 
将 (4-2-9) 式 (4-2-10) 式 和 (4-2-11) 式 代入 (4-2- 得 残 差 向 量 的 方差 为 
Уаг(У) = 0250 + о“ | алоо" + = УЛАД N’ | (4-2-14) 


(4-2-13) 


三 .单位 权 方 差 ”的 估计 


和 线性 模型 中 的 情况 一 样 , 我 们 仍然 用 残 差 平方 和 VV 来 估计 单位 权 方 差 o?. 为 此 , 对 
残 差 平 方 和 VV 取 期 望 .由 (1-1-21) 式 知 , 二 次 型 VV 的 期 望 为 
E(V'V)=(E(V)) (E(V)) + tr(Var(V)) (4-2-15) 
由 (4-2-7) 式 知 
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(E(V)) (Е(У)) = 


с“ 
4 





2 
条 Nu(G)| = (trCGJ)) NINtrCG) 





2 
o Й 
м6) 
4 


g? 
4 


4 
GYG) = FI? (4-2-16) 
再 由 (4-2-14) 式 知 
tr(Var(V)) = a2tr(SN) + а QAcQ + 1 маф) 
=ø°tr(I -B(B'B) В’) + ои Асо О + ASNN 


=ø (n-t)+o* 





(Ao) + аА 4) 


因为 
(А) = 05) = EX DG = УУ l Gu l? 
ш(Ад)= D о бы) = DY | Gal? 
于 是 有 ч 27 
tr(Var( У)) =а2 (п ~ 0) +-уо* > У | Gae 1? (4-2-17) 


将 (4-2-16) 式 和 (4-2-17) 式 同时 代入 (4-2-15) 式 ,得 
Е(У'У) = о2(п- г) + atl > У >) Gal 24b оС) |? (4-2-18) 
\ k=} е=1 
去 掉 (4-2-18) 式 中 的 期 望 ,用 估 值 ог CER ог, MR неп, Ж 
а= 5 УУ емс) (4-2-19) 
可 得 
ao? +t ro- V V=0 (4-2-20) 
当 模 型 (2-1-4) 式 为 线性 模型 时 ,有 G=0, FÆ а =0, 则 (4-2-20) 式 变 为 ia = УУ. 
故 有 
з= vy 
此 式 正 是 线性 模型 中 单位 权 方 差 的 估计 公式 .这 说 明 (4-2-20) 式 与 线性 模型 的 结果 完 
全 一 致 .这 也 正 是 我 们 所 期 望 的 . 
对 于 非 线 性 模型 (2- 1-4) 式 ,有 G0, W a 关 0. 于 是 (4-2-20) 式 就 是 关于 a? 的 一 元 二 
次 方程 .应 用 解 一 元 二 次 方程 的 公式 法 解 (4-2-20) 式 , 得 


一 2 “ 
了 2 一 tA VY (4-2-21) 


= 52 











_ 2 7 А Z L 2 7 
(4-2-21) 式 有 两 个 根 了 2= 2751-44 V 和 ?= r 44У раро, 


„>0, VV >0, $? = H Z tA VY co, 这 显然 不 符合 实际 , 应 舍 去 . 所 以 非 线性 模 


型 参数 估计 中 单位 权 方 差 o 的 严密 估计 公式 为 “3( 王 新 洲 , 2000): 
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四 线性 是 小 二 条 估计 的 统计 性 质 与 精度 评定 


_ Jr? + дауу 
52 = r+ 5 +4aV У (4-2-22) 
а 


由 (4-2-19) 式 知 , а 仅 与 非 线性 模型 的 固有 曲率 立体 阵 G 有 关 , 而 与 参数 效应 曲率 无 
关 , 所 以 单位 权 方 差 的 估 值 о” 在 参数 变换 下 保持 不 变 . 这 是 必然 的 , 因为 参数 变换 并 不 改变 
观测 值 的 精度 . 

例 4-2-1 设 非 线性 模型 为 L; = гн Ai, 参 数 的 真 值 为 x =2.013564, 模拟 的 观测 值 
Li, 观测 值 的 真 值 L, 和 真 误差 A; 列 于 表 4-2-1. 试 用 (4-2-22) 式 估计 单位 权 方 差 c?. 








表 4-2-1 








Li А; 





4.054439982 – 0.014439982 


8.163874388 0.016125612 


16.438483570 0.011516433 


取 参 数 的 近似 值 为 ro= 2, 用 高 斯 - 牛顿 法 经 4 次 迭代 , 得 


4.027 963 0.016 121 999 2 
p= [i21 366 |, ЕЕ 044 ч w= панно 
2.675 821 0.002 125 670 48.673464- 

т =2.013981629, УУ =0.000386425 
R = /В'В = 35.099898, M =R"! =0.028490 

0.114 757 0.115 – 0.986714 

аме зн т, ү [=o sasasi o атт 

.930 938 0.334118 0.147222 
„(0-00 2107 
(0.003 54117 

将 a,r МУУ 代 人 (4-2-22) 式 ,得 

a? = 0.000192630, с = + 0.013879 





а=| 5+ 5+ tjo. 004210? + 0.003541?) = 0. 000053 


而 根据 с2 = 4 人 得 
a? = 0. 000200392, o = + 0.014156 

按 线性 近似 得 
VV 

此 例 的 固有 曲率 立体 阵 G 的 数值 较 小 , 非 线性 强度 较 弱 . 下 面 再 看 一 个 固有 曲率 立体 
E G 的 数值 较 大 的 例子 . 

例 4-2-2 非 线性 模型 为 IL; = ет + A;. 参数 的 真 值 zx = - 0.25413679. 模拟 观测 值 , 观 
测 值 的 真 值 和 真 误差 列 于 表 4-2-2. 试用 (4-2-22) 式 估计 单位 权 中 误差 02. 





5? = = 0.000193213, S = + 0.013900 
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表 4-2-2 











. L, 
1 | 0.775585702 


0.601533181 


д, 





0.01441429 


0.008466818 





0.466540535 





~ 0.01654053 


取 xo= – 0.255, 用 高 斯 -牛顿 法 迭代 5 次 ,得 


0.775 243 0.016 121 999 2 
В= т 004|, V= К 044 so W= авз 
1.397 768 0.002 125 670 48.673464 
х= –0.25457862, УУ = 0.000552274 


К = /В'В = 1.999892, М = 0. 500027 
0.387 642 0.1 -~ 0.961371 
а | wa [отш олон 
.698 921 0.616283 0.362911 
(9:199 995 
10.304 452 
K a,r ЖУУ 代入 (4-2-22) 式 ,得 
62 =0.000276128, 5 = +0.016617106 





| а = 0.229434 





而 
в2 = 人 =0.000184349， о = +0.013577534 
5$%= ы =0.000276137, S= +0.01661737 
由 上 两 例 可 以 看 出 52>0°, 这 是 因为 由 5° 的 定义 知 


rS*~V'V=0 (4-2-23) 
将 (4-2-23) 式 减 去 (4-2-20) 式 ,得 
(52-42) = ад“ 
因为 a >0, 所 以 
(52-02) = а6*>0 
Вр $?°>в? (4-2-24) 
(4-2-24) 式 表明 , 在 非 线 性 模型 参数 估计 中 , 按 近 似 公式 (4-2-23) 式 估计 单位 权 方差 
с? 比 按 严密 公式 (4-2-22) 式 估计 的 结果 大 .但 cz: 5 5° 相差 很 小 很 小 . 而 按 (4-2-22) 式 计 
Яо? 其 工作 量 非常 之 大 .加 之 实际 测量 中 随机 误差 总 是 微小 量 , 单位 权 中 误差 取 至 百 分 位 


精度 足够 了 ,何况 用 5° 比 用 52 更 安全 . 所 以 建议 在 实际 工作 中 仍 用 5° = У-У kti 


373502049 ( 王 新 洲 ,2000). 
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有 2 线性 下 小 一 条 生计 的 统计 性 质 与 精度 评定 
第 三 节 非 线 性 函数 的 误差 传播 
一 、 观 测 值 函 数 的 方差 


设 独立 观测 向 量 的 真 值 为 = (1. bL o Y, WMA Lsa L … 1,), 真 
误差 为 A=(A! 4, -… 4,) 服 从 正 态 分 布 , 即 A 一 N(0,Var(A)). 其 中 


of 0 … 0 
2 s.. 
Var( A) = Маг(1) = 0 92 0 
0 0 o? 
现 有 独立 观测 向 量 的 非 线性 函数 
у= 9p( 工 )+ фо (4-3-1) 


式 中 ро 为 常数 , 要 求 根 据 独 立 观测 向 量 工 的 方差 Var(1), 来 求 非 线性 函数 у 的 方差 
Var(y) .这 就 是 非 线性 函数 的 误差 传播 问题 . 为 了 根据 观测 向 量 L 的 方差 Var( 工 ) 求 非 线性 
ВХ у 的 方差 Var(y) ,将 (4-3-1) 式 在 观测 值 L 处 展 为 泰勒 级 数 , 并 取 至 二 次 项 得 ， 


y=30+a4Ai+ + aÂ, thena? +з + 方 cmQ3 +срд42 


+ + Cis Ân t+ ci3A2A3t + с, „А, 14, 





式 中 : уо= Ф(1) + фо 
2 2 
-2g -2L 2 (4-3-2) 
“ 9Lili -Lr ° д \р 1 60 21.491. L=L 
A 
A 
Ay = aiAlt + аА, + епа + Д + c41 
же + Cin An + c23A2A3 +t + с, 1, „Д, - 14 (4-3-3) 
对 Ду 取 数 学 期 望 , 并 顾及 
Е(4;) =0, E(A;A;)=0(iz¥)), Е(4?) =0, Е(Д?) = о? (4-3-4) 
Е(4,4,4.) =0, Е(4,42) =0, Е(Д*) =30*, ECAA?) = ci 
得 


1 
Е(Лу)= (91 + с))0$+ + сла?) 


根据 方差 的 定义 知 : 
Уаг(у) = on =Е[(ЛАу- Е(Ду))?] 


аА: + +а,д, +101044) ++ 二 cm(43 - в) + câ 





| 








++ Cn -1, nÂn -1n 
顾及 (4-3-4) 式 ,得 
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n-i n 


Var( у) = Уа ЭЭА + 5 >) ctoo? 
































(4-3-5) 


ре1р= +1 
| 4-3-1 ÆGIS 矢量 数据 库 中 得 А,В 两 点 在 空间 直角 坐标 系 中 的 坐标 观测 值 为 
1,= СА lz l3 La ls 16) = (тд УА ФА TIB УВ zg) = (3 542 3 2). 
1, 的 方差 阵 为 : 
2 0 о о о 0 
0 о? 0 0 0 0 1/2 0 0 0 0 
^ , 0 12 0 0 0 0 
vol зо Pf o 91! 0 о 
ar 0 0 ат, 0 0 0 0 0 1/4 0 0 
0 0 0 0 1/4 0 
0 0 о 0 æ 0 / 
в 0 0 0 0 0 1/2 
0 0 0 о 0 сі 
试 求 空间 直线 
у= /(тхв—-хд)*+ (ув уд)” + (ев— 2л)? (4-3-6) 
的 方差 2 . 
解 : 将 观测 值 代入 (4- 3-6) 式 可 算出 该 空间 直线 近似 值 为 
yo= V(2-3)2+(3-5)2+(2-4)2=3 
于 是 有 
_ ду _ ду _ 1 _ду-_ ду _2 
1 ory ara 3， “2 gr дуд 3’ 
ду _ ду _ 2 _ ду _ ду _ _ 1 
43 Dr д 3? 8% ду, дл 3? 
a= 2222-2 = ду ду < 
5 gxrs дув 3? 6 dre zg 3? 
си-®з-®у-8 бубу 5. 
Iri дхт^хА 27 axi Iya 27 
-y ду 5 -ly ду _ 8 
C33 дт? JzA 27? C44 Jx? дх% 27, 
-Zy y 5 -2y ду 5 
ба Ф ayh 27 Saag arh 27 
собу a -2 ос бу 2 ду 2 
12 gridr, дхАдхА 27' 187921923 дхдджА 27° 
оу у в _ ту у 2 
м дх10х4 дтАд хв 27° 15 924025 дхтАд ув 27” 
ay су 22 „Фу Фу 4 
16 2219х6 дтддев 27° “P дхдтх; дхАдХА 27° 
А Py Py 2 20у 80у 5 
24 9=9=4 Әдуддхв 27° ‘2 gxrzgr5 Әхлдхв 2T 
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 ЕБИ: и ние. нат+нтвнн+Ежыйинт 














2 2 
c= Py у _4 = y ду _2 
2 92,026 Iyaðzg 27° “3 дхлздху Izalrg 2T 
ду ду _4 _ 0y ду 5 
C35 923025 gzagyp 277 `9 дтздл Огддев 27” 
22 у 22у 2 y 92у 2 





C45 94025 Әхвдув 27° 





cT 924026 делдең 27 





y __ 2y 4 


©°5% 025025 Iygðzg 27 
































hlg) ela 14 i li la 
+20105) A a (4 +|( 茹 ІЕЕ 58 
H-A 0) tl-a atla тё! т? 
A-A lal а tl] t 
dA ЕЕ 1-2) 二 
ЕЕ 0-22 2 
(0-2) 11=1.0750 
若 将 у 的 展开 式 仅 取 至 一 次 项 , 即 按 线性 函数 求 y 的 方差 , 则 有 
=) la т 0-27 0-2) 二 =0.80s6 


可 见 cy >oy. 这 说 明 一 个 非 线性 函数 若 按 线性 函数 计算 其 方差 , 则 人 为 地 将 函数 的 精度 拔 
高 了 . 


二 、 未 知 数 函数 的 方差 


在 测量 数据 处 理 中 , 用 得 最 多 的 葡 数 并 非 观测 值 的 函数 ,而 是 未 知 数 估 值 文 的 函数 . 因 
为 通过 平 差 计算 , 求 得 了 未 知 数 的 估 值 六 后 , 便 可 根据 它们 来 计算 该 平 差 问题 中 任 一 量 的 
平 差 值 , 或 者 说 该 平 差 问题 中 的 任 一 量 都 可 以 表达 为 未 知 数 估 值 文 的 函数 (9( 於 宗 做 .和 鲁 
林 成 ,1983). 那么 , 如 何 求 得 这 些 未 知 数 估 值 充 函数 的 方差 呢 ? 下 面 简要 讨论 这 个 问题 . 

1 .线性 函数 

设 未 知 数 估 值 文 的 线性 函数 为 

Y= Yo+ KX 

AP: Yo 为 m Xx1 的 常数 向 量 ; К 为 m xz 的 常 系数 矩阵 . 

由 (4-1-25) 式 知 ,未知 数 估 值 Х 的 方差 阵 为 


Маг(Х)=62(ВВ)7ї1+ LM OAG +Ан)М' 


由 (4-3-7) 式 直接 应 用 协 方差 传播 律 得 : 
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(4-3-7) 





ШИШЕ өө нею ыш 





Var( Y)= KVar(X)K =aK(BB) IK’+ 二 54KM(24c + Ан) M'K’ 


(4-3-8) 
2. 非 线性 函数 
设 未 知 数 估 值 АХ 的 非 线性 函数 为 : 
Y= фо+ ф(Х) (4-3-9) 
RP: go 为 m х1 的 常数 向 量 . 
将 (4-3-9) 式 展 为 泰勒 级 数 , 取 至 一 次 项 , 并 略 去 二 次 以 上 各 项 , 得 
Y= Yo + KAX 
дф 
式 中 : Yo= pot p(Xo), K = 
令 
АҮ = КАХ 
则 由 (4-3-8) 式 可 得 未 知 数 估 值 文 的 非 线性 函数 Y 的 方差 矩阵 ， 
事实 上 推导 未 知 数 估 值 Х 的 非 线性 函数 的 方差 不 应 该 线性 近似 . 即将 (4-3-9) 式 展 为 
泰勒 级 数 , 至 少 应 取 至 二 次 项 , 但 这 时 公式 推导 十 分 复杂 , 还 有 待 进一步 研究 . 
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第 五 章 “ 非 线性 模型 参数 的 其 他 估计 


第 一 节 ” 带 约 束 的 非 线 性 模型 参数 估计 


非 线 性 模型 (2- 1-4) 式 隐 含 着 个 未 知 数 zi, z+,…, х, 相互 独立 这 一 假设 .但 在 实际 工 
作 中 , 这 一 假设 有 时 并 不 满足 , 即 在 实际 工作 中 , 往往 所 选取 的 参数 个 数 u 大 于 上 .于 是 就 使 
得 参数 之 间 存 在 u - := d 个 约束 条 件 . 例如 图 5-1-1 所 示 的 测 边 网 , A RÆ X, Ya 已 
ЯА 点 至 1 点 的 方位 角 an1 已 知 . 现 选取 1.2、3 点 的 坐标 为 参数 , Вр. 

Х=(тү ур 2) уз 23 уз). 
参数 的 个 数 = 6, 而 本 例 的 必要 观测 : =5. 于 是 A 点 坐标 与 1 点 坐标 之 间 存 在 一 个 约束 条 
件 .于 是 有 
Гу = (zi ~ XIA) + (у уд)? +A, 
L2= М ar) + (ууз) + А; 


Із = /‹т»-— 73) + Суз — уз)? + дз 














La= /(ту— тд)? + (узул) + Aa (5-1-1) 
Ls= y (x17 r3) + (ууз) + А; 
Le= /(х»— хл)? + (уз уд)? + 4% 


Уі УА _ 
arctan = 
х 














а 
17TA ^, 


式 中 前 6 个 方程 为 观测 方程 , 第 7 个 方程 是 对 参数 ri, у, 的 约束 , тү, у, 应 满足 的 条 
件 , 称 为 约束 方程 或 条 件 方程 .(5-1-1) 式 就 是 带 有 约束 的 非 线性 模型 . 
一 般 地 , 带 约束 的 非 线 性 模型 可 写 为 
L=f(X)+A 
Ф(Х)=а 
式 中 :L = /(Х)+ А 为 观测 方程 (n 维 向 量 );X 为 维 未 知 参数 ; @(X ) 为 函数 形式 已 知 的 
а 维 向 量 , d=u-t;a 为 已 知 的 4 维 常数 向 量 . 
用 估 值 代 痊 真 值 , 则 (5-1-2) 式 可 写 为 
| 
Ф(Х)-а=0 
为 了 求解 未 知 参数 文 ,组 成 新 函数 
т= Ууу +2К'(Ф(Х) - а) (5-1-4) 
99 


(5-1-2) 





(5-1-3) 





И рөн ын ш 


式 中 .K Ad 维 待定 向 量 . 
对 (5-1-4) 式 求 偏 导数 , 并 令 其 为 0, 再 顾及 (5-1-3) 式 ,得 


A K=] 


Ф(Х)- 
求解 非 线 性 方程 组 (5-1- 5) 式 , 即 可 得 到 非 线性 模型 (5-1-2) 式 的 非 线 性 最 小 二 乘 解 . 
由 于 函数 РОХ) B(X) 的 任意 性 都 很 大 ,一般 求解 (5-1-5) 式 并 非 易 事 .为 此 , 我们 在 
此 只 考虑 一 种 最 简单 的 、 仅 带 有 线性 约束 的 情形 .于 是 (5-1-3) 式 可 写 为 
V=A(X)- “| 
СХ-а=0 
а 个 约束 方程 表明 独立 的 未 知 参数 只 有 w -d= 个 . 故 带 约束 的 非 线 性 模型 (5-1-6) 
式 等 价 于 一 个 仅 含 上 个 独立 未 知 参数 的 无 约束 非 线性 模型 .只 要 找到 这 个 等 价 的 无 约束 非 
线性 模型 , 带 约束 的 非 线性 模型 (5-1-6) 式 就 可 以 变换 为 无 约束 非 线 性 模型 .下 面 就 来 寻找 
这 个 等 价 的 无 约束 非 线 性 模型 . 
从 约束 方程 СХ - a =0 解 出 未 知 参 数 义 ,得 : 


(5-1-5) 


(5-1-6) 


К=С'е+ЕТ=С (CC) la+ FY (5-1-7) 
式 中 ;下 为 x xt 的 待定 矩阵 ;Y Atx 的 新 参数 .下 由 下 式 确定 ; 
CF=0, FF=I (5-1-8) 
将 (5-1-7) 式 代入 (5-1-6) 式 , 得 等 价 的 无 约束 非 线 性 模型 为 
V=g(Y)-L (5-1-9) 
其 中 
Е(Ү)=/(С' (СС) Da + ЕЎ (5-1-10) 


由 于 新 参数 Y 为 : 维 未 知 向 量 , 故 从 无 约束 非 线性 模型 (5-1-9) 式 , 可 用 第 三 章 介绍 的 
任 一 种 算法 解 出 了 .将 了 代 人 (5-1-7) 式 ,就 可 得 到 带 约束 的 非 线性 模型 (5-1- 6) 式 的 全 部 
| 5-1-1 带 约束 的 非 线性 为 
L; = іх} + түл; 一 ез + А, (i= 1,2,.…,n) 
(5-1-11) 
= ll+7z2z 一 3 一 3.24= 0 
设 г, ra 的 真 值 为 rz; =1.85, rz =2.34. 用 此 真 值 算出 的 观测 值 真 值 工 , 及 随机 观测 值 工 ; 
列 于 表 5-1-1. RAK 5-1-1 中 的 观测 值 估 计 参 数 广 = (zi,xrz,z3) 


表 5-1-1 









18.0189833 | 21.44149893 | 24.86399993 








17.969 





fu fa Ла 


|. (5-1-8) 
fi Рә fz 


Ё. (5-1-1) ЖЯ, С=(-1 1 -19a 53.24, Р =| 
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C (CC) 'a=(-1.08 1.08 一 1.08) 
-fut fuz Ра 0 
- Ро + fa- ә 0 
Ду+ Лау + Ли =1 
Ао + 2+ 3» = 1 
at+ РР + РР = 0 


о, 0 0.707106 0.707106 

令 Лато, PARA Р -| -0.816496 – 0.408248 о 0700, 
1) (1.08 –0.8164965› – 0.8164965 — 1.08 

х= 12,1= 1 1.0801 + |0.7071063, –0.4082485› ИС 
г) 11.08 0.7071063,+0.4082485;) (0.707106; +0.4082485: – 1.08 




















从 而 可 得 与 (5-1-11) 式 等 价 的 无 约束 非 线性 模型 为 
у, = :( –0.8164965: – 1.08)? + ( —0.816496у; 一 1.08) (0.707106у;, – 0. 408248y2 
+ 1.08) ~ ei (0.707106, + 0.408248y, — 1.08) —L,,i=1,2,.…,6 
根据 上 式 , 应 用 单纯 形 法 迭代 68 次 ,得 
yı = -0.341918， у = 一 3.592283903 
从 而 解 得 
文 =(1.852962 2.306129 - 2.786833), | X-X |›=0.050 


第 二 节 ” 非 线性 模型 参数 的 稳健 估计 


在 第 一 章 第 一 节 中 , 我 们 简要 回顾 了 线性 模型 的 抗 差 最 小 二 乘 估计 . 在 线性 模型 的 抗 差 
最 小 二 乘 估计 中 , 对 非 线 性 模型 总 是 进行 线性 近似 . 因为 线性 近似 不 可 避免 地 会 引起 模型 误 
差 , 用 具有 模型 误差 的 近似 模型 去 处 理 粗 差 ， 可 能 会 造成 错误 的 粗 差 鉴别 和 定位 ")( 周 江 文 
等 ,1997) . 因此, 要 解决 这 个 问题 ， 最 好 是 寻求 一 种 适合 于 非 线性 模型 的 稳健 估计 方法 . 由 于 
这 方面 的 研究 成 果 目 前 还 不 多 见 , 故 本 节 仅 给 出 一 种 简单 实用 的 非 线性 抗 差 最 小 二 乘 解 ， 
设 不 同 精度 独立 观测 值 为 上 = (Li 工 … Lay ,相应 的 权 和 矩阵 为 
Р = diag( pi pz” pa), 其 非 线性 误差 方程 为 ; 


V=f(X)-L (5-2-1) 
(5-2-1) 式 的 纯 量 形式 为 ; 
ъ= ЛО) 1, | (5-2-2) 
相应 的 权 为 pi. 
求解 误差 方程 (5-2-1) 式 的 准则 函数 可 表达 为 下 列 最 优化 问题 : 
У) pip(vi)= min (5-2-3) 


式 中 最 优化 准则 函数 p(w;) 取 不 同 的 形式 , 可 得 到 不 同 的 最 优化 准则 ， 
将 (5-2-3) 式 对 r: 求 偏 导数 ,并 令 其 为 零 ,得 
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доб) au _ 
р Р. (5-2-4) 

令 

ш). V(wv,) 
5-2-5 
Жб) ‹ ) 
将 (5-2-5) 式 代入 (5-2-4) 式 得 

>) pwn =0 (5-2-6) 

令 
Р, = piw; (5-2-7) 


Р.Р, 称 为 等 价 权 ; о, 称 为 权 因 子 . 
将 (5-2-7) 式 代 人 (5-2-6) 式 ,并 顾及 (5-2-2) 式 ,得 


УР 00000-1 (5-2-8) 


КЕЈ 
[400] E(7(X)- 1) =0 (5-2-9) 

当 f( 义 ) 为 线性 函数 时 , (5-2-9) 式 就 是 线性 模型 抗 差 最 小 二 乘 估计 的 方法 . 现在 /(Х) 
为 非 线 性 函数 , 故 称 满足 (5.2.9) 式 的 解 为 非 线 性 抗 差 最 小 二 乘 解 . 

由 于 f/( 文 ) 为 非 线 性 函数 , 故 (5-2-9) 式 没有 显 表 达 式 .求解 时 可 应 用 第 三 章 介 绍 的 任 
一 种 方法 . 

在 求解 (5-2-9) 式 之 前 , 还 必须 选择 最 优化 准则 函数 o VR 更 (V). 关 于 (у) Ар 
ВЕ, 李 德 仁 院士 给 出 了 五 条 选择 原则 459 ( 李 德 仁 , 1988). 

根据 这 五 条 原则 , 现 已 发 展 了 很 多 种 更 () 函数 . 最近, ]. Saleh 又 从 能 量 最 小 原理 出 
发 , 导出 了 各 种 情况 下 基于 能 量 最 小 的 权 因子 表达 式 C6o1(J. Saleh,2000) .在 这 诸多 权 因 子 的 
选择 中 , 周 江 文 提 出 的 IGG 法 权 因 子 是 值得 推荐 的 一 种 0 ( 周 江 文 , 1989). 周 江 文 建议 的 
权 因 子 可 写 为 

1， | oj 委 1.Sc 


w( vi) = Тө]? 1.50< | 0;1<2.50 (5-2-10) 


0, Iluv; | >2.50 
B 5-2-1 设 例 2-1-1 中 含有 粗 差 , 其 观测 值 为 工 ; = 8.52, 其 余 观测 值 见 表 2-1-1. WR 
参数 的 估 值 文 . 
直接 按 例 3-3-5 中 的 高 斯 - 牛顿 法 程序 求解 , 迭代 16 次 ,得 
Х = (5.727745804 ~ 0.133524000),, [| X - X || =0.3305 
而 由 例 3-3-5 知 , 当 无 粗 差 存在 时 , 其 解 为 
= (5.422744573 ~ 0.255672086), | X- X |›=0.0029 
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可 见 无 粗 差 影响 时 解 的 精度 比 有 粗 差 影响 时 要 高 两 个 数量 级 . 为 了 抵抗 粗 差 对 参数 估 
计 的 影响 , 下 面 采用 非 线性 抗 差 最 小 二 乘 估计 求解 . 先 按 (5-2- 10) 式 确定 权 因子 , 然后 仍然 
采用 高 斯 -牛顿 法 求解 , 迁 代 结果 列 于 表 5-2-1. 经 过 10 次 迭代 得 
X =(5.422978965 -0.255760000), | X- X ||›=0.0032 
与 无 粗 差 影响 时 的 结果 几乎 相等 . 





Ж 5-2-1 

























0.0601 | ~ 0.1137. — 0.2088 —0.25001 — 0.25559| — 0.25575 — 0.25575! — 0.25576| ~ 0.25576|- 0.25576000 
一 0.88987| -1.05051| — 1.07414| — 1.07479| — 1.07481 T1081 |- отап 
v 1.42847 – 1.63308 - 1.66166] - 1.66169] –1.66169/- 1.66169400 

-7.74355| —7.91172] — 7.93347 omoa] -7 озше -7.93407 — 7.93407000 


— 1.98324| — 1.99462) - 1. 99491 - — 1.99491| – 1.99491 |-- 1.99491800 
一 个 

一 1.93070| – 1.93091 – 1. 93088 — — 1.93087 | — 1.93087 | 1.93087700 
十 - 


5 6 7 8 9 | 10 
4.2308 | 4.9567 | 5.2518 | 5.39189 | 5.42223 рж | 5.42297 5.42297 | 5.42297 297 |5. 422978965 










































































1 1 1 p 1 1 | 1 

1 1 1 1 1 1 
| _| J o + l | 

74 |2х1075 | 1xl10 5 | 8x1078 | 4x107° 13x10- 了 | 3х107 

| F Г 

1 1 1 1 1 1 
+ + 4 十 

1 1 1 1 | 1 

1.95389 








第 三 节 非 线性 模型 参数 的 拟 似 然 估 计 


将 (2-1-4) 式 的 随机 模型 一 起 写 出 ,有 
1, = /(Х)+ А 
Е(А) = 0 (5-3-1) 
Var(A) = Var( L) = 020; = oP 


一 、 拆 似 然 估计 


设 观 测 值 L 服从 一 类 概率 分 布 , 其 概率 密度 为 p(X)， 其 对 数 似 然 函 数 为 L(X) .概率 
密度 2(X) 关 于 X 存在 一 阶 偏 导数 . 我们 定义 得 分 函数 为 


5(х)= 2400) (5-3-2) 

ШЖ г 的 分 布 为 自然 指数 族 分 布 , 则 
$(Х)=В'(Х)РУ(Х) (5-3-3) 
Rp: вох) = 2600 у(ху=у(х)-1. (5-3-4) 
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Ж ШЕ antee 


如 果 工 的 分 布 类 型 未 知 , 则 假定 得 分 函数 仍 与 (5-3-3) 式 同形 , 即 此 时 的 得 分 函数 为 
а(Х)=В'(Х)РУ(Х) (5-3-5) 
(5-3-5) 式 称 为 模型 (5-3-1) 式 的 拟 得 分 函数 . 
当 拟 得 分 函数 (5-3-5) 式 等 于 0 时 , 称 为 拟 似 然 方程 , 即 拟 似 然 方程 为 
а\Х)=В'(Х)РУ(Х)=0 (5-3-6) 
使 拟 似 然 方程 (5-3-6) 式 成 立 得 解 文 * 称 为 未 知 参数 X 的 拟 似 然 估计 2( 林 路 , 1999). 
将 (5-3-4) 式 代 人 (5-3-6) 式 , 则 拟 似 然 方程 可 写 为 


P] rroo- [9] m =o son 


所 以 非 线 性 模型 (5-3- 1) 式 的 拟 似 然 估 计 就 是 非 线 性 方程 组 (5-3-7) 式 的 解 文 ”. 关 于 
解 算 非 线性 方程 组 , 已 有 很 多 好 的 算法 . 附录 C 所 摘录 的 文章 (9 ( 陈 志 、 高 旅 端 、 邓 乃 扬 ， 
1998) 就 是 一 种 解 算 非 线 性 方程 组 的 很 好 的 算法 . 





二 、 泛 拟 似 然 估 计 
与 拟 似 然 鸽 计 类 似 , 泛 拟 似 然 估计 是 使 下 列 方程 
СОХ) = В'(Х)С(Х)У(Х) =0 (5-3-8) 
成 立 的 解 义 . 
ЖР: С=А' (АО АЭ) A (5-3-9) 
或 
С=А' (АО А”) AB(X)B-(X) (5-3-10) 


A 为 任意 & x n МЖ. 
三 、 拟 似 然 估计 的 性 质 


一 切 形 如 G(X) 的 隔 数 所 构成 的 卫 数 类 下 , 称 为 广义 正则 线性 无 偏 函 数 类 .FF 中 的 函数 
有 无 穷 多 个 , Н а (Х)ЄЕ. ЕМ 6 Е 的 无 穷 多 个 函数 中 任 取 一 函数 G(X)EE ,我 们 定义 
G(X) 与 SCX) 的 距离 为 5621( 林 路 ,1999) 
d(G,S)=E((S(X)- G(X))(S(X)- С(Х))) (5-3-11) 
性 质 EKES TF, g(X) 是 函数 类 Р 的 无 穷 多 个 函数 中 与 S(X) 的 距离 最 近 的 一 个 . 
性 质 2. 拟 似 然 估计 是 泛 拟 似 然 估计 类 中 的 渐 近 最 优 估计 . 
以 上 性 质 的 详细 证 明 见 文献 [62]( 林 路 , 1999). 


第 四 节 ” 非 线 性 模型 参数 的 贝 叶 斯 估计 


在 数理 统计 领域 , 存在 两 大 学 派 一 一 经 典 学 派 (或 频率 学 派 ) 和 贝 叶 斯 (Bayes, Т.К.) 

派 ,“ 经 典 学 派 " 也 称 为 抽样 学 派 , 是 指 20 世纪 初 由 英国 的 卡尔 :皮尔 还 (Pearson, K. ) 等 人 开 

th, ARK Fisher, R.A. FURE, 到 奈 曼 (Neyman, 了. ) 完 成 理论 的 这 一 系统 的 成 果 , EH 

前 国内 已 出 版 的 教材 中 , 这 一 部 分 指 经 典 学 派 的 方法 和 理论 , 往往 占有 全 部 或 绝 大 部 分 

ВОЛА, 如 点 估计 ,假设 检验 、 矩 估计 法 、 最 大 似 然 估 计 法 、 最 小 二 乘法 、 估 计 的 优良 性 质 、 区 

闻 估 计 、 假 设 检验 中 犯 两 类 错误 的 概率 、 优 良 的 假设 检验 方法 等 等 64 (оК ае ре, 陈 汉 峰 ， 
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1991).“ 贝 叶 斯 学 派 莫 其 性 的 工作 是 贝 叶 斯 的 论文 (Bayes, T. R. ,1763). 可 能 是 他 自己 感到 
他 的 学 说 还 有 不 完善 的 地 方 , 这 一 论文 在 他 生前 没有 发 表 , 而 是 在 他 死 后 由 贝 叶 斯 的 朋友 发 
表 的 .著名 的 数学 家 拉 普 拉 斯 (laplace, P.S. ) 用 贝 叶 斯 提出 的 方法 , 导出 了 重要 的 :相继 律 ， 
后 , 贝 叶 斯 的 方法 和 理论 才 逐 渐 被 人 理解 和 重视 起 来 "51 (КЕ, 陈 汉 峰 , 1991). 现在 , Л 
叶 斯 学 派 已 成 长 为 统计 学 中 一 个 很 有 影响 和 很 有 力量 的 学 派 , 其 势头 还 在 不 断 增 长 . “已 经 
可 以 肯定 地 说 , 员 叶 斯 学 派 已 经 形成 并 发 展 为 一 个 在 统计 学 中 有 影响 的 、 堪 与 频率 学 派 并 列 
的 学 派 "55 ( К 6, 1990). 而 “Lindley 认为 , 21 世纪 将 是 贝 叶 斯 统计 的 世界 "66 (成平 ， 
1990). 

“ 员 叶 斯 学 派 的 起 点 是 贝 叶 斯 的 两 项 工作 : 贝 叶 斯 定理 和 贝 叶 斯 假设 "4 (КЕ, 陈 汉 
峰 , 1991). 

1. 册 叶 斯 定理 

定理 5-4-1 RLS h … 4,) 为 观测 向 量 ,其 分 布 密度 为 /(L/X). 这 里 XT= 
(zl z2 … zh)XEG, 且 X 具 有 先 验 分 布 密度 x(X). 于 是 ,X 的 后 验 分 布 密度 为 

/0(Х/1,)есу(1,/Х)х(Х) (5-4-1) 





式 中 :cc 表示 成 比例 . 


证 明 : 由 条 件 密度 函数 утих) = ТЫ ХО п 


РХ) = РХ) (Хх) = р) (Х/Т) (5-4-2) 
ир; /(1,, XX) 称 为 I 和 XX 的 联合 分 布 密度 函数 . 
由 (5-4-2) 式 可 得 
рох) = ERLO (5-4-3) 
在 观测 值 L 给 定 的 条 件 下 , Р) X 无 关 的 函数 .所 以 /(X/L) 与 x(X)f(L/X) 


成 比例 . 其 比例 常数 为 -下 .定理 得 证 (21( 王 新 洲 , 1994). 





РО.) 
因为 [яслах = [ALIX ydr а) = 1 
ө 8 
所 以 f(L)= CL/ Xr адис (5-4-4) 
8 
TE, 贝 叶 斯 定理 还 可 以 写 为 
f(X/L)= Cf(L/X)x(X) (5-4-5) 
р: 1 (5-4-6) 


С= 
[алх аз 
8 


称 为 非 标准 常数 . 

先 验 分 布 密度 x(X) 概 括 了 试验 者 在 试验 之 前 对 未 知 参数 X 的 认识 , 而 f(X/L ) 则 是 
在 得 到 样本 L 的 条 件 下 , 试验 者 对 X 的 重新 认识 , 称 为 X 的 后 验 分 布 密 度 , 后 验 分 布 密度 
综合 了 X 的 先 验 信息 和 样本 带 来 的 关于 X 的 新 信息 . 先 验 信 息 蕴 含 在 先 验 分 布 密度 x (X) 
之 中 ,样本 带 来 的 信息 蕴含 在 条 件 密度 /(L/X) 之 中 ,如果 把 F(L/VX) 视 为 X 的 函数 , 则 称 
ХИИ ВХ, 记 为 工 (X/) .于 是 后 验 分 布 密度 可 写 为 : 

FCX/L)EL(X/L)r(X) (5-4-7) 
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或 f(X/L)= CLOX/L)r(X) (5-4-8) 

(5-4-7) 式 表明 :在 得 到 样本 之 后 , X 的 后 验 分 布 密度 与 似 然 函 数 和 先 验 分 布 密度 的 乘 
积 成 正比 . 

2. 贝 叶 斯 假设 

由 贝 叶 斯 定理 知 , 要 得 到 后 验 分 布 密度 /(X/L), 必须 已 知 X 的 先 验 分 布 密度 r(X ); 
然而 , 在 实际 工作 中 , 有 时 对 参数 X 是 没有 任何 过 去 的 知识 可 以 借鉴 的 . 这 种 情况 下 的 先 验 
分 布 就 称 为 无 信息 先 验 分 布 . 由 于 对 X 一 无 所 知 , 所 以 贝 叶 斯 假设 参数 X 的 无 信息 先 验 分 
布 密度 x(X) 应 在 其 取 值 范围 内 是 “均匀 "分 布 的 .又 因为 对 X 无 任何 信息 可 以 借鉴 , 故 可 设 
X 的 取 值 范围 为 ( - оо, co ) .于 是 , 根据 广义 分 布 密度 9 ( 张 癌 庭 , 陈 汉 峰 , 1991) 知 : 

х(Х)=С, -co<X<co 





或 z(X)=1, -co<X<oo (5-4-9) 
将 (5-4-9) 式 代 人 (5-4-7) 式 ,得 
ff/(X/L)CL(X/L) (5-4-10) 


(5-4-10) 式 表明 : 当 采 用 无 信息 先 验 分 布 时 , 似 然 函 数 是 后 验 分 布 密度 的 核 0( 张 鄞 
庭 , 陈 汉 峰 , 1991). 

3. 贝 叶 斯 估计 

(1) 损 失 函 数 与 风险 函数 

评定 估计 量 好 坏 的 标准 , 通常 用 损失 函数 和 风险 函数 来 描述 . 

在 参数 空间 Ө 上 定义 的 一 个 二 元 非 负 实 函 数 S(X, 文 ) 称 为 损失 函数 . S(X, 文 ) 表 示 用 
X 去 估计 XX 时 , ВРХ 与 X 不 同 而 引起 的 损失 . 一 般 地 , 损失 总 是 非 负 的 . 因此 , 限定 
S(X, 义 ) 之 0. 据 此 定义 , 可 得 到 很 多 种 形式 的 损失 函数 . 在 参数 估计 中 , 最 常用 的 损失 函数 
为 平方 损失 (或 二 次 损失 ) 函数 : 


$(Х,Х)=(Х-Х)Р(Х-ЖХ) (5-4-11) 
对 于 损失 函数 (Хх, X), ЧН Х 去 估计 X 时 , 其 平均 损失 
К(Х,Х)=Е(5(Х,Х)) (5-4-12) 
称 为 风险 函数 . 
(2) 贝 叶 斯 估计 


当 我 们 取 二 次 损失 函数 (5-4- 11) 式 作为 损失 函数 时 , 其 风险 函数 为 
$(Х,Х)= Е(5(Х,Х)) = Е((Х-Х)Р(Х-Х)) 
= Е(Х-Е(Х)+Е(Х)-Х)Р(Х-Е(Х)+Е(Х)-Х)) 
(5-4-13) 
由 于 E(X-E(X))=0, 所 以 ($-4-13) 式 变 为 
Ѕ(Х,Х) = Е((Е(Х) - Х)Р(Е(Х) -Х)) (5-4-14) 
损失 函数 选 定 后 , 一 个 好 的 估计 应 使 风险 函数 尽 可 能 地 小 .在 (5-4-14》 式 中 , 因为 P 为 
正定 矩阵 , 故 当 义 =E(X) 时 ,(5-4-14) 式 达到 最 小 .于 是 在 先 验 分 布 密度 x(X) 下 , 以 二 次 
损失 为 损失 函数 的 员 叶 斯 估计 为 
Хв=Е(Х) (5-4-15) 
顾及 数学 期 望 E(X) 的 定义 , (5-4-15) 式 可 写 为 
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Ka= | X/(X/L)dX (5-4-16) 


式 中 ; f(X/L) 是 由 (5-4-3) 式 或 (5-4-8) 式 或 (5.4_10) 式 所 确定 的 X 的 后 验 密度 函数 . 显 
然 , (5-4-16) 式 是 非 线性 方程 , 且 一 般 情况 下 (5-4-16) 式 不 能 用 解析 法 计算 积分 , 只 能 采用 
数值 积分 .附录 B 所 介绍 的 蒙特 卡 罗 积 分 是 较 合适 的 数值 积分 法 (633( 王 新 洲 , 1994). 


第 五 节 ” 非 线 性 模型 非 参数 小 波 估计 


估计 理论 中 存在 参数 估计 和 非 参 数 估计 两 类 估计 间 题 .前 面 已 详细 讨论 了 非 线 性 模型 
下 的 参数 估计 间 题 . 这 节 将 扼要 介绍 非 线性 模型 下 的 非 参 数 估计 问题 . 

设 非 线性 非 参数 估计 模型 为 

L=g(t)+A (5-5-1) 

ир. L=(4 15 oo 1) п х1 ТАЈА УХ eE; = t … ta Y 服从 [0,1] 
上 的 均匀 分 布 ,6 = E [0,1]; А 服从 N(0, Var(L)); g CORE ЛЕГО, 1] 上 的 未 知 光 滑 函 
Ж. | 

Donoho 等 人 对 模型 (5-5-1) 式 提出 了 非 线性 小 波 估计 (8 ( 张 双 林 , 沙 秋英 , 程 美玉 ， 
1999). 现 扼要 介绍 如 下 . 

设 (4) 和 (г) ЕМВ ТЕЛЧЕ, 要 求 pg(1) 和 yy(1) 紧 支撑 ,有 连续 导数 , Hya) 
A м-1 ИНЖ, В y() 和 任意 N ~1 阶 多 项 式 正 交 , 则 对 任何 正 整数 уо 满足 20022 М, 
可 找到 函数 集合 

palt) k =0,1,, 2 1; palt) jjo k =0,1,+-,2/—1} 

构成 L?*[0, 1] 标 准 正 交 基 .于 是 对 任意 AE 六 [0,1] 有 下 列 在 1*[0, 1] 意 义 下 收敛 的 展开 
A: 


2?0-1 = 27-1 


ға) = 2 аукФык(!) + >) СКО, (5-5-2) 
式 中 : ji 二 [Реко bn = | Рб) фаб) (5-5-3) 


这 样 得 到 的 工 *[0,1] 上 的 一 组 标准 正 交 基 也 继承 了 尺度 函数 g(i ) 和 和 和 母 小 波 (с) ВВЕ 
质 , 即 紧 支撑 , 有 一 阶 连续 导数 , 并 且 对 固定 的 j0, 当 &=N,N+l…,2o-N-1li 时 有 


plt) = 2%57®р(2м – в) (5-5-4) 
对 固定 的 j, 当 k= М, N+1, 6,27 М1 ЊН 
prl) = p(t- k) (5-5-5) 


对 与 边界 0 和 1 有 关 的 oM yO MEE KEE. 
于 是 , 对 于 非 线 性 非 参数 估计 模型 (5- 5- 1) 式 , Hall 和 Partill69) (1993 ) 给 出 的 非 线 性 小 波 
估计 为 


290-1 А 27-1 


g(t)= Daalt + 2, 2 bal iia >01 b(t) (5-5-6) 
=0 ja k= 


i=j k= 
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А А 1 п 
式 中 : ajk 7 1y Lipje Cti)» бу = 0] Гар С) (5-5-7) 
21 


п 


张 双 林 , 沙 秋 英 , 程 美玉 ( 1999) a 给 出 的 非 线性 小 波 估计 为 


&(L) = DORO + È 2 TA i>a Palt) (5-5-8) 


åt > Lpi ЧӘ Tiig nleM 


җир: (5-5-9) 


= 二 2 lp ti) арам 
М=/п 
可 以 证 明 , 由 (5-5-8) 式 和 (5-5-9) 式 得 到 的 g(:) 是 g(t) 的 一 致 强 相合 估计 .这 一 结论 


的 证 明 见 张 双 林 , 沙 秋英 , 程 美玉 所 著 ( 回 归 函 数 非 线性 小 波 估计 的 一 致 强 相 合 性 6) 
(1999). 


第 六 节 ” 非 线性 模型 半 参 数 估计 


将 非 线 性 参数 估计 模型 (2- 1-4) 式 与 非 线 性 非 参数 估计 模型 (5-5-1) 式 综合 在 一 起 , 就 
可 以 得 到 如 下 的 新 模型 : 
L=/(X)+g(t)+A 
E(A)=0 (5-6-1) 
Var(A)=Var(L)=oP-! 
式 中 : 为 独立 观测 向 量 ; X 为 未 知 参 数 向 量 ; A(X) 为 函数 形式 已 知 的 非 线性 函数 ; 
б= (ү t сз 4) 服从 [0,1] 上 的 均匀 分 布 , 4; = є [0,1]; л IRAN (0, Var(L));g 
(:) 是 定义 在 [0,1] 上 的 未 知 光滑 函数 ， 
模型 (5- 6- 1) 式 称 为 非 线性 半 参 数 估 计 模 型 . 非 线 性 半 参 数 估计 模型 包含 了 非 线 性 参数 
估计 模型 和 非 线性 非 参 数 估计 模型 , 即 当 g(:) =0 时 , (5-6-1) 式 变 为 (2-1-4) 式 , 当 /(X) 
=0 时 , (5-6-1) 式 变 为 (5-5-1) 式 . 
模型 (5-6- 1) 式 的 对 数 似 然 函 数 可 写 为 


di(X, g(ti))= - 180202) - 51500, = РХ) - gD (1<і<л) (5-6-2) 


Ф 


Р,(Х, р) = > di(X,g(t:)) (5-6-3) 

下 面 根据 (5.6.2) 式 与 (5.6_3) 式 来 估计 未 知 参数 X ЖИБИ (4). 
为 了 估计 未 知 参数 X, 可 将 非 参 数 成 分 视 为 无 穷 维 多 余 参数 .为 了 叙述 方便 , RIIA X 
MORR X Mge) WAH. 假定 存在 一 条 曲线 Xm gX, DRE (Х.г) = (2), H 


060 = д" (1), Án 充分 大 时 ,下 式 成 立 : 
х=% 
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Че ti D) (24 KED eea) 








Y3 (5-6-4) 


= из? +g “(4)) g(t) = O(n?) 


式 中 ;g(z;) 为 任 一 定义 在 [0， ноен, ШЖк(Х,,)ЖК 5 НКИ, р" (4 ) 称 
为 渐 近 有 效 方向 "9( 朱 仲 义 、 韦 博 成 ,2001) . 

如 果 非 参数 g 是 一 个 有 限 维 多 余 参数 ， 那么 渐 近 有 效 曲线 就 是 参数 正 交 化 变换 由 于 
渐 近 有 效 曲 线 g(X, г) ЖА, 假如 能 求 得 g(X, 1) 的 相合 估计 eX, г), WE р, (X,g(X)) 
称 为 广义 子 集 参 数 似 然 函 数 .下 面 根据 广义 子 集 参 数 似 然 函 数 D,(X,g(X)) 来 估计 未 知 参 
数 X 和 光滑 曲线 g (2). 

Ф Жы) = „(т т; … 4) 是 一 列 仅 依赖 1 ВО РА, Н (Хх, i) 是 下 列 方 
程 的 解 : 


D wo) HERD L D у (о), ЛО) -80 (5-6-5) 
i=] i=l 
由 (5-6-5) 式 可 以 求 得 g(X, 1) 的 一 个 显 式 解 : 
g(X,1)= > Walt- fi(X)) (5-6-6) 
可 以 证 明 R(X, O g (X, 1 的 相合 估计 Co( 朱 仲 义 . 书 博 成 ,2001) 
再 令 
h(X)=(hi(X) А„(Х) © А„(Х))' 
пох) дО) У) „(ОП A) 
вх) = 0 (5-6-7) 
у(х) =А(Х)-1 (5-6-8) 
， 于 是 基于 广义 子 集 参数 似 然 函数 D,(X,&(X)) 的 极 大 似 然 估计 X 应 满足 下 列 方程 
BCXIPVR) = ( 60) рах) | 200) Pr =0 (5-6-9) 


解 非 线 性 方程 组 (5- 6- 9) 式 , 即 可 得 到 未 知 参数 的 极 大 似 然 估 计 广 .将 广 代 人 (5-6-6) 
式 即 可 得 到 光滑 曲线 g(z) 的 估 值 g (i). 

其 实 , (5-6-8) 式 就 是 与 (3-1- 1) 式 同型 的 非 线 性 误差 方程 。 故 采用 第 三 章 介绍 的 任何 
一 种 方法 都 能 得 到 (5-6-8) 式 中 参数 х 的 非 线性 最 小 二 乘 估计 。 
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第 六 章 ，“ 非 线性 模型 参数 估计 
在 测量 上 的 应 用 


第 一 节 ”在 导线 网 平 差 中 的 应 用 


传统 的 平面 控制 网 , 如 测 角 网 、 测 边 网 、 边 角 网 已 被 GPS 所 取代 .只 有 导线 网 在 城市 测 
量 中 还 能 发 挥 一 些 作 用 . 故 在 此 只 简要 令 述 非 线 性 模型 参数 估计 在 导线 网 平 差 中 的 应 用 

我 们 知道 , 在 导线 测量 中 , 其 基本 观测 值 为 归 算 到 高 斯 投影 平面 上 的 边 长 和 方向 , НЛ 
长 观测 值 大 约 为 1/3, 方向 观测 值 大 约 为 2/3"n( 吴 俊 宗 ,刘大杰 ,于 正 林 , 1998). 由 《控制 网 
测量 平 差 >( 吴 俊 仇 ,刘大杰 , 于 正 林 , 1998) 知 , 对 于 如 图 6-1-1 所 示 的 边 长 观测 值 5;, 其 误 
差 方程 为 








vs = /(у—х)*+ (у,— %) Sy (6-1-1) 
而 方向 观测 值 , 如 图 6-1-2 中 的 8B; 和 pi, 其 误差 方程 为 
ув = -2; + arctan 22—21 - В; 
ug, = - 2, + arctan 2—2 ~ Bx (6-1-2) 
Tko Ti 


式 中 ;2; 为 测 站 i 点 定向 角 未 知 数 , 即 从 纵 坐 标 方向 顺 时 针 旋 转 到 度 盘 零 位 置 的 角度 500 R 
RM, 刘大杰 , FIE, 1998). 





图 6-1-1 图 6-1-2 


0 方向 本 身 的 误差 方程 为 
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ов - Z; + arctan 200 -po (6-1-3) 
因为 定向 角 未 知 数 之 为 测 站 点 i 至 零 方向 0 点 的 方位 角 的 估 值 , 而 测 站 点 i 至 零 方向 
0 点 的 方位 角 的 估 值 可 由 这 两 点 的 坐标 估 值 表示 为 
2, = arctan 20— 
х0 








(6-1-4) 


将 (6-1-4) 式 代入 (6-1-2) 式 和 (6-1-3) 式 , 得 如 图 6-1-2 中 Bj 、Bi 和 0 方向 Bo 的 误差 
方程 为 











„= 0 
和 Н 

vg = arctan > Ti, arctan © 21, Bij (6-1-5) 
D aon дас 

vp, = arctan і 二 之 arctan г, От; Bir 


(6-1-5) 式 为 消去 定向 角 未 知 数 后 的 方向 观测 值 的 误差 方程 . 由 于 0 方向 的 误差 方程 恒 
等 于 0, 故 任 一 测 站 上 方向 误差 方程 的 个 数 为 mm -1(n; 为 测 站 ; 上 的 方向 数 ). 

对 于 导线 网 , 分 别 按 (6-1-1) 式 和 (6-1-4) 式 列 出 误差 方程 后 , 在 УРУ = min F, 用 第 
三 章 的 任 一 种 解 算 方法 , 都 能 解 算出 未 知 参数 的 非 线性 最 小 二 乘 估计 A. 

例 6-1-1 导线 网 如 图 6-1-3 所 示 , A、B 两 点 的 坐标 已 知 , 且 无 误差 .方向 观测 值 的 中 误 
EH op 各 边 长 观测 值 的 中 误差 分 别 为 cs . 试用 非 线性 最 小 二 乘 估计 平 差 该 导线 网 





6-1-3 


根据 (6- 1-1) 式 和 (6- 1-2) 式 列 出 边 长 观测 值 的 误差 方程 , 即 
vs = (Ze ль) + (5. уь)? Si 
= /ra Ee) + (бат ye) -So 
vs „= (Te Te) + (5. 5а) Sa 
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VS = Slaa Ze) (у. Ye) 8 





vg = Сата) + (бет ys) Sa 





vs, ™ М (а 20) + (за 50) -Su 
设 测 站 A 上 的 0 方向 为 AB, 测 站 B 上 的 0 方向 为 BC, 测 站 C 上 的 0 方向 为 CD, 测 站 D 
上 的 0 方向 为 DE, 测 站 玉 上 的 0 方向 为 EA, 测 站 下 上 的 0 方向 为 FD, 则 由 (6-1-5) 式 得 方 
向 观测 值 的 误差 方程 为 


_ У{ Уа Yb Ya 
Ug = arctan = — arctan 
а ХЕ Ta ьт, 








— Bat 


Уе Уа .yb Ya 
ов = агсіап = — arctan — Bae 
а Te 一 Ta ThT Ta 








_ Уа” Yb yc УЬ 
ор = агстап 一 arctan ~ — Bta 
ba Ta Xb їс Th 








уь Ye У-У 





























vg = агсіап = — arctan 二 = 一 
В хыт Xe ха Xe В 
_ YT y Ye У 
va = arctan < ~ — arctan ~ = – Ва 
af Ti Xd х. Td 
Jc Yd Уе” Y 
vg, = arctan ~ ~ — arctan ~ ~ — Вас 
de тот Ха Ж та 
_ Уа Уе Уа У 
ор 二 arctan ~ ~ = arctan = — В.а 
e Td Хе Ха Хе 
_ Уа { Уа Yi 
vp = arctan ~ — arctan ~ — Bia 
в TaTTi тат лү 


取 单 位 权 中 误差 为 ce, 则 方向 观测 值 和 边 长 观测 值 的 权 分 别 为 
2 2 
记 = 呈 -1ps= 生 .有 了 Y 和 P 后 ,在 YPV=min 下 ,用 第 三 章 的 任 一 种 解 算 方法 ， 
op ' 5, 
都 能 解 算出 未 知 数 2, 和 >,. 


第 二 节 ”在 工程 测量 中 的 应 用 


施工 放样 是 工程 测量 中 最 基本 的 测量 工作 . 由 于 全 站 仪 的 普及 , 极 坐标 法 放样 得 到 广泛 
的 应 用 . 极 坐 标 法 放样 对 现场 条 件 要 求 较 低 . 只 要 两 个 已 知 点 通 视 , 且 在 任 一 已 知 点 上 能 与 
待 放样 点 通 视 即 可 .然而 , 就 这 么 低 的 现场 条 件 , 在 建筑 物 密集 的 地 区 往往 也 难以 满足 .如 图 
6-2-1 所 示 , 两 已 知 点 А,В 彼此 通 视 ,但 А,В 两 已 知 点 与 待 放样 点 D 均 不 通 视 . 在 这 种 情况 
F, 可 在 任意 一 个 同时 与 A、B.D 三 点 通 视 的 地 方 , 比如 图 6-2-2 中 的 С 点 安置 仪器 , 通过 测 
量 C 点 至 A、B 两 点 的 方向 Baba MEB Sas Sa 据 此 计算 出 放样 数据 б.а. 5а, 就 可 放 
样 出 DD 点 ,这 种 放样 方法 通常 被 称 为 自由 设 站 法 . 

在 自由 设 站 法 放样 中 , 要 通过 方向 观测 值 ba .6 和 距离 观测 值 SS 计算 放样 数据 
В.а. Sa 需要 先 计 算出 C 点 的 坐标 toye 为 了 计算 出 C 点 的 坐标 zx。 yc, 可 列 如 下 误差 方 
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2 非 线 性 模型 参数 估计 在 测量 上 的 应 用 





Х ЙЛ 


о 


А р 





Ё 6-2-1 


程 ( 设 0 方向 为 CA 2714): 


Уь Ус Ya Уу 
v = arctan =" = arctan = 一 
В cb 
中 ьт, Ха Te 








Си (х. =.) + (у, у.) Sa 





VS 一 Jlrs Ze)? + (yp 一 yo) 7 5% 
采用 第 三 章 中 介绍 的 任 一 种 非 线性 模型 参数 估计 的 解法 , 均 可 解 算出 未 知 参数 т. у. 
在 测 站 C 上 解 算出 Toy. 后 ,由 下 式 即 可 算出 放样 数据 Ba Sa: 


> d` y 
В.а = arctan z < 





лас х, 
Sea= у (ха T.) + (yd 一 yo) 
有 了 放样 数据 Beas Su 后 ,在 测 站 С 上 就 可 放样 出 D 点 . 


第 三 节 ”在 摄影 测量 中 的 应 用 


“摄影 测量 学 的 主要 任务 是 测 制 各 种 比例 尺 的 地 形 图 、 建 立地 形 数 据 库 , 并 为 各 种 地 理 
信息 系统 和 土地 信息 系统 提供 基础 数据 ""2 ( 李 德 仁 , 金 为 铣 , 尤 兼 善 , REE, 1995). ЖОШ 
过 立体 像 对 测 制 各 种 比例 尺 的 地 形 图 , 首先 需要 得 到 被 摄 物 体 在 地 面 坐标 系 中 的 坐标 . 而 要 
得 到 被 摄 物体 在 地 面 坐 标 系 中 的 坐标 , 需要 对 立体 像 对 进行 相对 定向 和 绝对 定向 “解析 法 
像 对 的 相对 定向 是 通过 计算 相对 定向 元 素 , 建立 地 面 的 立体 模型 ""3 (ДЭБ, 孙 护 , ЖЯ 
光 , 1995) .绝对 定向 就 是 把 模型 点 在 像 空间 辅助 坐标 系 中 的 坐标 转化 为 地 面 坐标 系 中 的 坐 
标 .要 完成 这 一 坐标 转换 , 必须 估计 出 七 个 坐标 转换 参数 , 即 摄影 测量 中 的 七 个 绝对 定向 元 
Ж Х,.Ү,.2,-л.Ф.0 和 K .下 面 用 非 线 性 模型 参数 估计 方法 来 估计 这 七 个 绝对 定向 元 素 . 

h (REMEE) (REN, 孙 护 , 崔 炳 光 , 1995) 知 : 














X U X, 
Yl=ARIV |+ |Ү, (6-3-1) 
7 ұу 7, 
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式 中 :XX、Y .2 为 控制 点 在 地 面 坐标 系 中 的 已 知 坐标 ; U、V、W 为 控制 点 在 像 空间 辅助 坐标 
系 中 的 坐标 , 是 观测 值 ; X,、Y, 、2Z, 为 未 知 的 平移 参数 ;4 为 未 知 的 缩放 比例 因子 ;R 为 由 下 















































式 定义 的 旋转 矩阵 : 
соѕФсоѕК – sinBsinQsinK -cos®BsinK – ѕіпФѕәіпОсо5К ~ зіпФсоѕ0 
В = соѕ50 ѕіп К cos{2cosK -sin 
sinBeosK + соѕФзіпОѕіпК – япФәпК + cosøsinNcosK соѕФсоѕ0 
(6-3-2) 
因为 U、V、W 是 观测 值 , 故 (6-3-1) 式 可 写 为 
Х U +v, X, 
Y|=AR| Vtv |+|Y, (6-3-3) 
Z W + vy Z, 
令 
v; Vu 
- = АЁ |у, | (6-3-4) 
v3 Vw 
则 有 误差 方程 
vı U X, X 
vz ZARI V |+ |Ү,|- (6-3-5) 
уз wW 7, 7 














顾及 (6-3-2) 式 知 , (6-3-5) 式 为 非 线 性 误差 方程 . 一 个 控制 点 可 列 出 3 个 误差 方程 , 当 
控制 点 个 数 大 于 等 于 3 时 , 误差 方程 的 个 数 大 于 等 于 9. 所 以 采用 第 三 章 介 绍 的 任 一 种 算 
Ж, 都 可 以 解 出 这 七 个 绝对 定向 元 素 Х,,Ү,,Л,,А,Ф,О MK. 


第 四 节 在 GPS 定位 中 的 应 用 


GPS 定位 一 般 分 为 伪 距 定位 法 和 载波 相位 定位 法 两 种 . 前 者 的 观测 值 是 伪 距 , 后 者 的 
观测 值 是 载波 相位 .需要 求解 的 参数 都 是 测 站 点 i 的 三 维 坐 标 z;、y; 、z;. 

对 于 测 码 伪 距 绝 对 定位 , 其 基本 方程 为 

o= /(х/-х)®*+ (у — у) + (е — zi)? + сё; + А (6-4-1) 

式 中 :i 为 测 站 点 点 名 ;7 为 卫星 编号 ; pi 为 测 站 点 i 至 卫星 j М ЕБ; (л, у, zj) 为 卫星 у 的 
坐标 ; (ху, yo zi ) 为 待 求 的 测 站 点 i 的 坐标 ;c 为 测 距 信 号 的 传播 速度 ; 81; = А - Аг, 称 为 
钟 差 参数 ;Ai 为 包含 电离 层 误差 大气层 误差 .随机 误差 等 的 真 误差 .将 (6-4-1) 式 写成 误差 
方程 的 形式 为 








v= (0) ty 50) + (0 – 21) + сй, — рі (6-4-2) 
式 中 有 3 个 坐标 参数 (zx,, y;, z;) 和 1 个 钟 差 参数 o. 当 同时 接收 到 4 颗 以 上 卫星 的 信号 时 ， 
用 第 三 章 中 介绍 的 任 一 种 解 算 方 法 , 都 能 解 算出 未 知 数 (zi，yi zi). 
对 于 测 相 伪 距 绝对 定位 , 其 基本 方程 为 
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БЕГИ ан аек аш 1 шк В 








= ГС) yt а) NtA (6-4-3) 
с 


ҖИР: gi 为 载波 相位 观测 值 ;f 为 信号 的 频率 ; Ni 为 整 周 未 知 数 ;其 余 符 号 的 意义 同 (6-4-1) 
д. 

与 (6-4-3) 式 相应 的 误差 方程 为 
d-t 
式 中 有 3 ПА КІ, yo ahl 个 钟 差 参 数 б, 和 一 个 整 周 模糊 度 参 数 . 当 观 测 几 个 历 
元 后 , 整 周 模糊 度 参数 可 以 通过 专门 的 方法 固定 下 来 . 因此 , 只 要 同时 接收 到 4 颗 以 上 卫星 
的 信号 时 , 用 第 三 章 中 介绍 的 任 一 种 解 算 方法 , 都 能 解 算出 末 知 数 (zi yi z). 

在 GPS 测量 中 , 用 得 最 多 的 是 载波 相位 相对 定位 .在 GPS 相对 定位 中 , 常常 对 观测 值 
进行 线性 组 合 . 当前 普遍 应 用 的 重要 组 合 形式 ,只 有 单 差 , 双 差 和 三 差 三 种 "4 ( чый, ЮЛ 
Ж, 周 琪 , 1997) . 在 此 只 讨论 单 差 的 情况 .所 谓 单 差 , 就 是 在 两 测 站 之 间 对 同步 观测 值 求 差 ， 
其 观测 方程 为 


ap =- 二 | (хо) (у уз) + (2) ea) – (а ху)®+ Су уп) + (е — =1)?) 
+ fAt А№ + A 
AP: Ag = фі Gi, At = òta- д1, АМР = № – №. 
由 于 相对 定位 中 有 一 个 测 站 为 已 知 点 , 比如 测 站 1 为 已 知 点 , 则 测 站 1 至 卫星 ; 的 距离 
ай, = / (2 х1) + (у —у,)?+ (27 ~ =,)%* = ЖЖЖ. TERANA 
当 同 时 接收 到 4 颗 以 上 卫星 的 信号 时 , 用 第 三 章 中 介绍 的 任 一 种 解 算 方法 , 都 能 解 算出 
Ж (22, yz, 2). 





(2-2) + (уі – 3) + («© – 21) + al М фі (6-4-4) 








(ск O r+ ай, NI- | др + Да, 
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附录 A 立体 阵 的 定义 .运算 及 其 性 质 


我 们 知道 , m 维 向量 函数 7(X ) 关 于 维 向 量 X 的 一 阶 导数 是 一 个 m x n 阶 的 矩阵 函 
数 .那么 /(X) 关 于 X 的 二 阶 偏 导数 是 什么 呢 ? 由 于 矩阵 画 数 ? 忒 的 任 一 行 都 是 一 个 ” 维 向 


PAO (j =1,2,…,) 这 个 维 向 量 函数 2 应 人 2 关于 X 的 一 阶 篇 导数 又 是 wx a 阶 的 


矩阵 . 因此 , m 个 ” 维 向 量 关 于 X 的 一 阶 偏 导数 共有 mmx 个 n x n 阶 和 矩阵. 若 将 这 m 个 n xn 
阶 和 矩阵 按 顺 序 上 下 辣 置 , 就 得 到 一 个 m 层 的 三 维 数组 , 这 样 的 三 维 数组 称 为 立体 阵 (Ar- 
ray). 

AERES SRE, 最 早 于 1980 年 由 Bates 和 Watts 在 他 们 的 论文 中 提出 "3 
(Bates & Watts, 1980). 1983 年 Tsai 在 他 的 博士 论文 中 对 其 进行 过 初步 整理 09 (Tsai, 
1983).1986 年 我 国学 者 韦 博 成 在 Tsai 的 基础 上 进行 了 系统 的 总 结 和 扩充 07 ( 韦 博 成 ， 
1986) .立体 阵 在 非 线性 模型 参数 估计 中 占有 非常 重要 的 地 位 , 现 介绍 如 下 . 


一 、 关 于 立体 阵 的 若干 定义 


定义 A-1 Жлхрх@а 的 三 维 数组 X = (Xu) ALAE, 简称 立 阵 . 其 中 ”表示 此 立 阵 
RA n È, p x g 表示 每 层 都 是 一 个 p x g 阶 的 矩阵 . Хь, 为 立 阵 X 的 一 个 元 素 . FR Rk ij 
分 别 表示 该 元 素 所 在 的 层 、 行 和 列 . 即 Xu 表示 立 阵 X 的 第 上 层 、 第 i 行 .第 ; 列 上 的 元 素 ， 
见 图 A-1. 

可 采用 下 列 两 种 方式 来 理解 立体 阵 : 

第 一 种 方式 , 立体 阵 X 表示 一 个 元 素 为 向 量 的 和 矩阵 , 该 矩阵 中 的 任 一 元 素 为 X; = 
(хь Ху `U Tad) . 

第 二 种 方式 , 立体 阵 XX hn 个 p xg 阶 的 矩阵 Xi (k=1,2,…,n) 上 下 倒置 而 成 . Х, Ж 
示 立 体 阵 X 中 第 层 的 那个 矩阵 . 例如 , 一 个 3x2x2 的 立 阵 为 























7/ 7 

5 7 简写 为 

2 4 1 3 2 4 9 11 

х= L х=, |, = Еи и 

9 11 而 X2iz=4 

13 15 

定义 A-2 ”车 两 个 立 阵 六 和 Y 的 对 应 元 素 一 一 相等 , 则 这 两 个 立 阵 相等 , 即 当 Xi; = 
Yi 时 ,有 和 = 了 了. 


定义 A-3 设 X 和 YY 均 为 x x px qa 阶 立 阵 , 定 义 X 与 Y 之 和 ( 差 ) 为 
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的 定义 .汉王 及 只 性 质 





Xn en Х, 有 Xiu 
Xn ee Xij en Хы 
和 РО КО Хы, 
| 第 i 列 
: Ху үзчененөнеенининине не ннн Ху, Le Xaq 
| Xn - Ху; Le Хы 
же Хы Kpp Xp 
Ж be Х„, E Xma 
bp Хш Хы 
Kip Xp Хы 
图 A-1 
Z=X+Y 
各 元 素 的 关系 为 
26 = Хы + Үк (А-1) 


定义 A-4 ША уг xp ИЖЕ, X 为 n x p Xxg 阶 立 阵 .矩阵 A EARLEX, Т А 
ERX 的 每 一 层 的 矩阵 , 然后 将 ”个 乘积 矩阵 按 X 的 相同 顺序 下放. 其 维 数 关系 为 


Y= АХ (A-2) 
Y 中 各 元 素 的 计算 公式 为 
Р 
Үш = >, акк (А-3) 


注意 ;只 有 当 A 的 列 数 (A 的 第 二 个 下 标 ) 与 X 的 行 数 (X 的 第 二 个 下 标 ) 相 同时 , А 与 
х жие. 仿 此 可 类 似 地 定义 矩阵 与 立 阵 的 右 乘 
例 A-1 已 知 

















2 1 
/ / 
1 2 
1 2 3 4 
a=] |,x= / / 
2 1 4 3 
0 5 
/ / 
5 6 








ЗЧ И әз ане єн ш 
求 4 左 乘 X ЮҮ. 






































2 1 4 5 
74 / 74 / 
1 2 5 4 
1 2 3 一 一 一 4 11 10 
Ү= АХ = | / / |а / 
2 1! [4 3 10 11 
6 5 16 17 
/ / Ж 
5 6 17 16 


当 A 为 1xp 维 行 向 量 ,X 为 n x p xg 阶 立 阵 时 , A ERX 得 到 一 个 n ха ВЕЕ. 
例 A-2 已 知 A=(1 2),Х 如 例 2-2-1 中 所 示 , 求 A ERX 的 积 Y. 














2 1 
/ Z 
1 2 4 5 
3 4 
Y=AX=(1 2) 4 3 -| о 
16 17 
6 5 
/ / 





5 6 
特别 地 , 当 A 为 p x1 维 列 向 量 ,X 为 n x px р 阶 立 阵 时 , 二 次 型 AXA 表示 一 个 nn Ж 
列 向 量 , Ер 





AXA= (АХ,А AXA œ» АХА) 
Ah p р p р , 
= | >) У) худа, >) 2 T2000 КЕ У) гала) (А-4) 
i=] j=l i=} j=1 i=l j=1 
例 A-3 已 知人 A=(1 2),X 2-2-1 中 所 示 , 求 二 次 型 AXA 
2 1 
/ 4 








, 3 4 1 
Ү=А'ХА=(1 2) ГА / |= | 














3 2 
6 5 
/ / 
5 б 
=(14 31 50y 
ЖУ А-5 设 X 为 zxpx 户 阶 立 阵 ,X 的 迹 定义 为 一 个 n 维 列 向 量 , 记 为 tr(X). 则 
(Х)=(и(Х) и(Х,) © и(Х„))' (А-5) 
8 5 
L 
例 A-4 已 知 X= 6—8 ‚Ж х ЖЖ. 
/ / 
3 2 
и(Х) = (и(Х,) Ч(Х,)) = (17 8Y (А-6) 


ЖУ А-6 设 多 为 n x p Xp 阶 立 阵 , Х 的 向 量 表示 定义 为 一 个 pg х п WER, 记 为 
Vec(X) .该 矩阵 在 ((j -1)p + i,&) 处 的 元 素 是 Хы. 
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加 国王 立体 昨 的 定义 、 运 算 及 其 性 质 
例 A-5 已 知 立 阵 X 如 例 A-1, 求 X 的 向 量 表 示 Мес(Х). 
2 3 6 





1 4 5 
Уес(Х) = Y= 
1 4 5 
2 3 6 
4 j=2,i=1,k=2 时 , ур-ра = 7з2 = Тю 4. 
定义 A-7 ЖА тхл WERE, X 为 x x p xg 阶 立 阵 . A 与 X 的 方 括号 乘积 Y = 


ГАИ ХЈУ ЖЕРЕ А 与 立 阵 X 的 层 的 乘法 , Вр 






































Уш” 之 ажы; (А-7) 
=1 
其 维 数 关系 为 
| А Y., = ГАИ Хх] (А-8) 
仿 此 类 似 地 定义 方 括号 右 乘 . 
| 1 2 3 
3 4 5 
例 A-6 САМА = 567 , ,六 ,如 例 A-1 求 A 与 X 的 方 括号 乘积 Y. 
7 8 9 
28 22 
2 1 22 28 
/ / 
1 2 3 1 2 52 40 
Z / 
4 5 4 3 40 52 
у=[А][т1= / / — 
6 7 3 4 76 58 
А 76 
6————5 
7 8 9 7 
5 6 100 76 
76 100 





定义 A-8 Ў Х= (2) 0 пхрха 阶 立 阵 , 则 X 的 转 置 定义 为 X = (2) 0 пхах 
p ИЗВЕ. 


# А7 已 知 X= , 求 X 
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二 .各 种 运算 的 基本 性 质 


以 上 所 定义 的 立体 阵 的 各 种 运算 具有 如 下 基本 性 质 (X、 了 、Z 为 立 阵 ): 

1.[7][X]= X 

2. [424][X]=[A][AX]=2[A][X] (4 为 实数 ) 

з.[А+В][Х]=[А)}[Х]+[В][Х] 

4.[A][X+ Y]=[A][X]+[A][Y]} 

5.[АЦХ]=[Х][А/'] 

6.[A][LXM]= LĪĮA][X]M 

证 明 : ЖҮ = Xea LAL X 5AL] 
„W SIAJIX] U =LIAIX]=LW 


Р 
由 (A-3) 式 知 :yu = У) Liet kej 


ШЩ (А-7) Ж: zw = >) а Уку 


= 2 > a skl iet kej 
F = 
шу T 2, а. 
ГД p n 
而 иу > шы = ЭЭЭ аі = Zs 
所 以 | 
[A][LX]=L[A][X] (A-9) 
同 理 , 当 M Жаха 阶 方 阵 时 ,有 
[A][XM]=[A][X]M (A-10) 


综合 (A-9) 式 和 (A-10) 式 得 
[A][LXM]=L[A][X]M 


性 质 6 得 证 . 
7.[LAB][X]=[A][[B][X]] 
证 明 : 设 
СА, В, „ҮСХ, 12,0180 X hn ТАЛ, | 
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立体 阵 的 定义 .运算 及 其 性 质 


由 (A-7) 式 知 


| 


Ysij 7 у салы) 一 22 as 
Zeij = >) bekt kij 


r н 
A 
Wsij 7 > ашы) 一 5 Uscb ekT pi = Уш; 


у= 多 .所 以 性 质 7 成立” һи 
8.[ Аа ][(Вь)(Сс)' |= ВІА 12 Ньс 1]С' 
9.4'Ха = (ха)а= У) У\ ааа 


i=1 j=1 


其 中 ;4d 为 p x1 维 行 向 量 , X A nx px р 阶 立 阵 . 
WA: S 
Y = X 4, W =(Xd)d=Yd, Z =dY 


пхрх1 пхрхррхі пх]х 


Р р p P 
Уз = 25 хуй, W, = У) у = У) У хам, 
= j=1 j=1 k=l 
P 


Р Р Р Р 
而 2, = 2245, = 224, Эту, = 2) 2) хуку = W, 
所 以 性 质 9 成 立 ， | 
10.А(4'Х4)={А]Ї4Ха4]=4'{А][Х14 
其 中 :4 为 px 1 维 行 向 量 . 
11.tr(AX)=tr(XA) 
12. Atr(X)=tr([A][X]) 
‚ЖЗ: Ф Y =[А][ X ] 
BUCA] = (У), а =АщХ) = АС, C=tr(X) 


由 (A-7) 式 知 ; ун = У) ать» 而 Ci = узш = > TRii 


k=1 
b, =tr(y,)= Уу» = У) У) а 
i=] 大 =1 
则 
= Daae = = Daa Dru = аты = б, 
i iz] k=l 


所 以 性 质 12 成 立 . 
13. Vec([A][X])=(Vec(X))A’ 


证 阴 ; ЖА Amx n WIER, X 为 xn x p xg 阶 立 阵 .Y =[A][X], 由 (A-7) 式 知 


Уы T 2) AksT sij 
则 由 定义 A-6 知 Vec([A][X]) 在 ((j -1)p+ i,k) 处 的 元 素 为 : 
Уы 7 2) ару 
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参数 估计 理论 与 应 用 


= (\ 
由 定义 А-6 Ж 
Tiu 211 Tnall 
II2 T22 `U Tani 
Уес(Х) = | . . . 
Zip Try Xnpg 
Tin X211 Tall ац an аһ} 
, 212 2212 `“ Xnl2| 1412 an Am2 
(Vec(X))A =] . . . 。 . 
Tiq Trø Жар аі, Ud2n Amn 


н п 
У) хац, У) х,аз, т У\ х,а 
з= 1 


з=] 


з=1 s=1 


н п п 
_ У) таза, У) raaz У) 2,ра, 
一 s=1 


ÈD Tais =; Tsi 25 М È хма, 
显然 在 ((j -1)p +, ЖЫ > ryan, 所 以 性 质 13 成 立 . 
14.Vec(AXB)=(B OA)Vec(X) 
15.([AJ][X]) =[X’ J[A’] 
以 上 仅 就 本 书 所 用 到 的 立体 阵 运 算 作 了 一 些 一 般 
阵 的 运算 变化 很 多 , 因此 还 可 定义 很 多 种 运算 , 并 总 结 
已 定义 和 总 结 . 


定义 ,并 总 结 了 15 条 性 质 .由 于 立体 
各 自 的 性 质 .读者 可 根据 实际 需要 自 
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Ее зкәнө 


附录 B 蒙特 卡 罗 积 分 


在 贝 叶 斯 估计 中 , 往往 要 进行 非常 复杂 的 多 重 积 分 计算 . 由 于 被 积 函 数 非常 复杂 , 无 法 
用 解析 方法 求 出 积分 , 故 一 般 都 要 借助 数值 积分 法 . 尽管 存在 很 多 数值 积分 方法 , 但 这 些 方 
法 计算 多 重 积 分 , 工作 量 大 , 速度 缓慢 , 效率 很 低 , 而 蒙特 卡 罗 积 分 却 能 帮助 我 们 克服 这 些 困 
Ж. 因此, 在 贝 叶 斯 估计 中 常常 使 用 蒙特 卡 罗 积 分 . 蒙特 卡 罗 积 分 是 蒙特 卡 罗 方 法 引入 计算 
数学 的 开端 . 在 实际 中 , 许多 需要 计算 多 重 积 分 的 复杂 问题 , 用 蒙特 卡 罗 方 法 一 般 都 能 很 有 
效 地 予以 解决 . 为 此 , 本 节 扼 要 介绍 蒙特 卡 罗 方 法 . 


一 .蒙特 卡 罗 方法 的 基本 思想 


蒙特 卡 罗 方 法 (Monte Carlo Method) 的 定名 和 系统 发 展 约 始 于 20 世纪 40 年 代 中 期 .但 
如 果 从 方法 特征 的 角度 来 说 (尽管 在 当时 方法 锥 形 的 出 现 是 孤立 的 , 而 且 也 没有 得 到 发 
E), 可 以 一 直 追 滴 到 19 世纪 后 半 叶 的 萍 丰 (Buffon) 随机 投 针 试验 , 即 著名 的 所 谓 薄 丰 问 
题 . 

蒙特 卡 罗 方 法 又 称 随 机 模拟 (Random Simulation) 方法 , 有 时 也 称 随 机 抽样 (Random 
Sampling) 技 术 或 统计 试验 (Statistical Testing ) 方 法 . 它 的 基本 思想 是 , 为 了 求解 数学 物理、 
工程 技术 以 及 生产 管理 等 方面 的 问题 , 首先 建立 一 个 概率 模型 或 随机 过 程 , 使 它 的 参数 等 于 
问题 的 解 .然后 通过 模型 或 过 程 的 观察 或 抽样 试验 来 计算 所 求 参 数 的 统计 特征 , 最 后 给 出 所 
求解 的 近似 值 .而 解 的 精确 度 可 用 估计 值 的 标准 误差 来 表示 . 

用 蒙特 卡 罗 方 法 求解 时 , 最 简单 的 情况 是 模拟 一 个 发 生 概 率 为 p 的 随机 事件 A .考虑 
一 个 随机 变量 &, 若 在 一 次 试验 中 事件 A 出 现 , 则 取 值 为 1, 若 事件 A 不 出 现 , 则 & 取 值 
为 0. 令 g=1-~p, 那 么 随机 变量 $ 的 数学 期 望 为 E(&)=1:p+0.g=p, 此 即 一 次 试验 中 事 
ЕА 出 现 的 概率 . 的 方差 为 E(& 一 E(&)) =p- р? = ра. BREN 次 试验 中 ,事件 A 出 
现 v 次 ,那么 观察 频数 o 也 是 一 个 随机 变量 , 其 数学 期 望 E(v)= Np, HŽ o= Npg, 令 p 


= 省 ,表示 观察 频率 ,那么 按照 强大 数 定理 , 当 N 充分 大 时 ,下 式 
p= NEE(E)=p (В-1) 


成 立 的 概率 为 1. 因此, 由 上 述 模型 得 到 的 频率 = 条 近似 地 等 于 所 求 量 p. 这 就 说 明了 频率 
收敛 于 概率 . 而 且 可 用 样本 方差 . 
р(1—р) (в-2) 


作为 理论 方差 oz 的 估 值 . 
蒙特 卡 罗 方法 可 以 解决 各 种 类 型 的 问题 , 但 总 的 来 说 , 视 其 是 否 涉及 随机 过 程 的 性 态 和 
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ПШ ен ангк веш 


结果 .用 蒙特 卡 罗 方 法 处 理 的 问题 可 以 分 为 两 类 : 

第 一 类 是 确定 性 的 数学 问题 .用 蒙特 卡 罗 方 法 求解 这 类 问题 的 方法 是 , 首先 建立 一 个 与 
所 求解 有 关 的 概率 模型 ,使 所 求 的 解 就 是 我 们 所 建立 模型 的 概率 分 布 或 数学 期 望 .然后 对 这 
个 模型 进行 随机 抽样 观察 , 即 产 生 随 机 变量 ;最 后 用 其 算术 平均 值 作为 所 求解 的 近似 估计 
值 .计算 多 重 积 分 、 甜 阵 求 逆 、 解 线性 方程 组 等 都 属于 这 一 类 . 

第 二 类 是 随机 性 问题 . 例如 电子 在 介质 中 的 扩散 等 问题 , 就 属于 随机 性 问题 , 对 于 这 类 
问题 , 虽然 有 时 可 表示 为 多 重 积分 或 某 些 函 数 方程 , 进而 考虑 用 随机 抽样 方法 求解 , 然而 一 
般 情 况 下 都 不 采用 这 种 间接 模拟 方法 , 而 是 采用 直接 模拟 方法 , 即 根据 实际 物理 情况 的 概率 
法 则 , 用 电子 计算 机 进行 抽样 试验 .原子 核 物理 问题 \ 运 筹 学 中 的 库存 问题 ， 随机 服务 系统 中 
的 排队 间 题 等 都 属于 这 一 类 . 


二 、 莹 特 卡 罗 方 法 的 特点 


蒙特 卡 罗 方 法 是 一 种 具有 独特 风格 的 数值 计算 方法 . 其 优点 以 及 与 其 他 数值 计算 方法 
的 不 同 点 , 可 归纳 为 以 下 几 个 方面 ， 

(1) 蒙 特 卡 罗 方 法 及 其 程序 结构 简单 

例如 , 用 蒙特 卡 罗 方 法 计算 积分 , 只 需 做 大 量 简单 的 重复 抽样 , 而 抽样 的 方法 和 程序 都 
是 很 简单 的 . 

又 例如 用 随机 游 动 方法 求解 椭圆 型 差分 方程 边 值 问 题 时 , 可 以 只 求解 我 们 所 需要 的 某 
个 点 上 的 值 , 而 不 需要 求 出 全 部 网 络 点 上 的 值 . 

(2) 收 敛 的 概率 性 和 收敛 速率 与 问题 维 数 无 关 

蒙特 卡 罗 方法 的 收敛 是 概率 意义 下 的 收敛 . 其 收敛 速率 与 一 般 数 值 方法 相 比 是 很 慢 的 ， 
故 蒙特 卡 罗 方 法 不 宜 解决 精度 要 求 很 高 的 问题 . 

蒙特 卡 罗 方 法 的 误差 s 只 与 标准 差 。 和 样本 容量 N AX, 而 与 样本 中 元 素 所 在 空间 无 
Эс, 即 蒙 特 卡 罗 方 法 的 收敛 速度 与 问题 的 维 数 无 关 . 其 他 数值 方法 则 不 然 , 这 就 决定 了 蒙特 
卡 罗 方 法 对 多 维 问题 的 适用 性 . 

(3) 蒙 特 卡 罗 方 法 的 适应 性 强 

蒙特 卡 罗 方 法 广泛 的 适应 性 是 不 可 忽视 的 , 而 且 是 很 重要 的 , 应 用 蒙特 卡 罗 方 法 解 题 ， 
受 问 题 条 件 限制 的 影响 较 小 . 


三 蒙特 卡 罗 积 分 


用 蒙特 卡 罗 方 法 计算 定 积分 ,有 着 十 分 重要 的 意义 , 因为 在 实际 工作 中 近似 地 计算 定 积 
分 是 经 常 碰 到 的 数学 问题 , 对 于 复杂 的 单 重 与 多 重 定 积分 , 人 们 通常 选用 矩形 公式 、 辛 普 森 
公式 等 来 完成 积分 的 近似 计算 .在 许多 情况 下 , 使 用 这 些 近似 公式 虽然 能 得 到 相当 满意 的 结 
R, 但 计算 量 随 着 积分 重 数 的 增加 而 显著 增加 , 以 致 达到 电子 计算 机 都 难以 完成 的 程度 .使 
用 蒙特 卡 罗 方 法 计算 积分 , 将 不 存在 这 个 问题 , 而 蒙特 卡 罗 方 法 积分 的 误差 与 积分 重 数 无 
Ж. 
设 有 一 S 重 积分 





[= ffel za, zs) driedz, (В-3) 
а 
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СЕ езкәна 


其 中 0 为 S 维 积分 域 , 考虑 0 上 的 一 个 概率 密度 函数 A(zi, ту, x,), 它 满足 如 下 条 


件 : 
fri, x2 Ts) FEO 


H(t xT2, EN, (тү, TX2, mx) 天 0 时 , 令 
эл) f(x1, Tr2,°", Ts) FAO 





fri хр, Ts) (B-4) 
0 fxri, x2, ,Xs)=0 


е^ (Zi T20) = 


于 是 (B-3) 式 可 改写 为 
І = ffet (Tis E230, Ls) fC £1, X21 Ts dri, dr2, х, 


=E[g (zi, z2, zs)] (B-5) 

(B-5) 式 表明 , S 重 积分 1 是 随机 变量 函数 g* (ri xz2,…, Xs) 的 数学 期 望 . 如果 抽 选 服 

Жубу хӘЙ М 个 点 (ri оог), i 二 1,2,…, N 并 构成 N ХИН g” (га, 
Xizr х2), 那么 就 可 用 其 算术 平均 什 


=i > & (Zi Tis Zis) (B-6) 
作为 了 工 的 近似 值 , 即 


gÈ Tii 1:25 “, Xis) 


жы 

(B-7) 式 称 为 蒙特 卡 罗 积 分 . авли 计算 蒙特 卡 罗 积 分 的 主要 问题 是 要 寻找 一 

аза А ра A fr, хә, тә ху). ПН F(zli，zrz，…， zx,) 应 很 接近 原 被 积 函 数 (тү, 

7 л), Жк” (тү, ту, ,zs) 几 乎 为 一 常数 . 显然 , 这 一 要 求 是 很 难 满足 的 .解决 这 个 

问题 的 最 简单 的 方法 是 在 积分 域 Q 上 均匀 地 抽 选 N 个 数据 点 (zi raz,…, ть). 这 就 意味 
着 f(xit, zi2，…, т) О 上 的 均匀 分 布 的 密度 函数 .于 是 有 





(B-7) 





1 
ри тулду л,)Є 0 
fe Cria ) (В-8) 
lo ”其 他 
AP: V, 代表 积分 区 域 的 体积 
将 (B-8) 式 代入 (B-7) 式 ,得 
х1 15 У (та, zi2 Ti) (B-9) 
特别 地 , 当 积 分 域 Q 平行 于 坐标 轴 时 ， мылан ав 8) 式 可 写 为 
= Tj = б, 
f(xri, хз,» ] j (B-10) 
zj [L aj, Tj < bj 
于 是 (B-9) 式 变 为 
s N 
r~1=[]] (6-а) №) Elins таз s i) (B-11) 


由 蒙特 卡 罗 积 分 方法 58 ( 徐 钟 济 , 1985) 知 , 用 蒙特 卡 罗 方 法 对 (B-9) 式 或 (B-11) 式 计 
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上 入 参数 估计 理论 与 应 用 





算 定 积分 时 , 其 误差 的 阶 为 0(N -2), 它 与 积分 重 数 无 关 . 而 用 矩形 公式 求 S 重 定 积分 时 ， 


误差 的 阶 为 0(N 5). 这 里 N 表示 求 积分 结 点 数 . 因此 , 当 5 >3 时 , 使 用 蒙特 卡 罗 方法 求 积 
分 就 开始 显示 出 其 优越 性 了 . 
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ШЕЙ өзҥ эин a-a AI Newon йж 


жс 解 非 线性 方程 组 的 一 类 
离散 的 Newton 算法 


( 陈 志 , 高 旅 端 , 邓 乃 扬 ) 


一 .引言 
考虑 非 线性 方程 组 
Е(х)=0, Е(х)= (0х) f(r) … fria) (C-1-1) 
设 x; 是 当前 的 迭代 点 , 为 计算 下 一 个 迭代 点 ,Newton 法 是 求解 方程 
F(Xi)+F (ri)(r- zi)=0 (C-1-2) 
车 用 差 商 代替 导数 , 离散 Newton 法 要 解 如 下 方程 | 
F(zxi)+J(xi,h)(r -zxi)=0 (C-1-3) 


其 中 
Irish) ОЛО + her) = fila) 


这 里 为 了 计算 J(x;, А), REHA n TRAR. A T HERRE, Brown 方法 使 用 代入 消 元 的 
办 法 来 减少 函数 值 计算 量 . 它 是 再 通过 一 次 内 和 迭代 从 ri BATF- NERA r. 


rsl 6&2 E)’ t= t2 … a) t 为 变量 .Brown 方法 的 基本 思想 
如 下 : 
对 filr E r; 处 作 线性 近似 
filr) + filr) (et -zxi)=0 (C-1-4) 
解 出 
tiz ёр = 102 62,7761, n) (С-1-5) 
然后 代 人 第 二 个 函数 , 得 到 
ЉС + En toss ta) = galtz stn) (C-1-6) 
这 是 关于 tees tn 的 函数 . 当 (t2 ty … ta) (6 65 名) 时 ,由 (C-1-4)、 
(C-1-5) 式 得 到 
п =1л(0,-,0)+ а= Д +, (С-1-7) 
fix) 


* 本 附录 系 原文 摘录 , 故 矩 阵 A 的 转 置 用 АТ 表示 :F 的 导数 用 F' 表示。 与 本 书 的 符号 不 同 , 特此 说 
明 。 
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ев атнтю ын 
这 里 /у ек у, 对 第 一 个 分 量 的 偏 导数 . 由 (C-1-6) 式 得 到 





(т) 
gal Ez ёз,с,&„) = р, -E+ en ta (C-1-8) 
显然 
g2(€2, Ёз, °°, ©„) зе fal En ё&›, 9, Es) (С-1-9) 


同样 当 在 (£。 6 … 8) 处 展开 , 可 解 出 
t27 ё&›=1(13— ёз, tn ên) 
以 此 类 推 ,通过 回 代 解 得 ;= x; ,1. 

当 用 差 商 计算 导数 及 考虑 主 元 选取 时 ， 上 述 方法 是 离散 Brown 方法 .完成 从 zi |х; 
的 一 次 主 迭 代 时 , 函数 值 的 计算 量 得 以 减少 , 约 为 离散 Brown 法 的 一 半 . 车 利用 坐标 旋转 ， 
选取 合适 的 坐标 系 , 能 够 得 到 离散 Brown 方法 . 

Brown 方法 和 Brent 方法 属于 二 次 迭代 Newton 型 算法 . 当 差 商 的 步 长 4 一 0 时 , Brown 
方法 和 Brent 方法 实际 求解 的 方程 并 不 是 对 应 的 在 т; 处 的 Newton 方程 ， 而 是 如 下 线性 方 
H: 

HODIA (у-у))=0 G=1,2, =, n) (C-1-10) 
这 里 y = zx;.(C-1-6)、(C-1-9) 式 也 能 表明 这 一 点 . 

“ЕС | ABRA, y 之 间 的 距离 也 较 大 , 从 (C-1-8) 式 看 出 约 与 二 EC 
阶 , 因此 它们 收敛 更 依赖 于 初 值 .第 三 节 中 的 数值 例子 表明 了 这 点 . 数值 实验 表明 , 当 维 数 增 
加 时 , 总 体 看 收敛 情况 比 离散 Newton 法 要 差 . 

我 们 希望 直接 从 Newton 方程 (C-1-2) 式 获得 一 种 算法 , 当 用 差 商 代替 导数 时 , 其 效能 与 
Brown 方法 相同 , 而 当 步 长 hp 一 0 时 ,求解 的 方程 就 是 在 т; 处 的 Newton 方程 . 

注意 到 Brown 方法 中 Г.(о Sents ta &„)() =1,2,…, 上 一 1), 则 14- & 是 线性 
的 .如 果 不 是 把 它们 代入 f(1), 而 是 直接 代入 

Salari) + félx) t~ ri)=0 (C-1-11) 
EF -ESLa 6,1, EGEL k1), W e- т; 总 可 以 写成 如 下 的 形式 


te — Êk 

ате) : Е (С-1-12) 
tn ё, 

于 是 

te — Êk 

+ А (0) 79 





fál) l(t -—т)= (А (а) Тир, =, А Cxi) u,n) | 

tn Ên 
如 用 差 商 代替 导数 , 则 不 必 计 算 友 (x;), 而 利用 在 иь, …, и, а 上 差 商 , В 
т falzi + hui) — fi(xri) 
) uO h 





А (х (= 4,5, п) 


同样 解 得 
te ё = 10р Ekap sta T En) 
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„ы 
Ее аҥ тшн®—5шюйметоһй Ж 


相对 于 通常 的 离散 Newton 法 , 其 函数 值 的 计算 量 也 得 以 减少 . 利用 这 种 离散 的 方法 求解 方 
程 (C-1-2) 式 , 其 函数 值 的 计算 量 约 为 通常 的 离散 Newton 法 的 一 半 . 这 样 , 得 到 一 类 新 形式 
的 离散 Newton Ж, 它 不 同 于 Brown 方法 .下面 将 由 零 空 间 生 成 导出 这 一 类 算法 , 因此 称 这 
类 算法 为 零 空间 上 的 离散 Newton 法 . 





二 、Newton 算法 
设 
fili) Saj -f(xi)=6 (j=1,2,.,n) (C-2-1) 
则 (C-1-2) 式 可 以 写成 如 下 的 线性 方程 组 
а (у-х;) = 6, (3=1,2, +, л) (С-2-2) 
利用 线性 方程 组 的 解 的 结构 求解 (C-2-2) 式 .由 于 
aj(y— zi)=b (j=1,2,…,k-1) (C-2-3) 


的 解 可 以 表示 成 解 集 流 形 5, = | y, + Uz, ze Е" EH 这 里 у, 是 (C-2-3) 式 的 一 个 特 解 ， 
U, Èn x (n -+1) 矩 阵 ,而 RU ) 是 (ao …, aT 的 零 空间 .下面 将 通过 实用 可 行 的 
方法 构造 零 空间 , 并 求解 Newton 方程 (C-1-2) 或 (C-1.3) . 4 F (r O PERKER, 可 以 
通过 在 零 空间 上 离散 来 提高 算法 的 效能 . 


设 
21=Ti， О = 1, (С-2-4) 
#т 5, 是 (C-2-3) 式 的 解 集 , 显然 
alU,=0 (j=1,2,.…,k~1) (С-2-5) 
且 秩 rank( U,)=n-k+1 为 求解 
ај(утуј)= 6 (j=1,2,.…,k) (С-2-6) 
使 用 如 下 的 方法 . 
算法 1 
DHR 
сь = Ular (С-2-7) 
сь = (ar ai, an)" (C-2-8) 
(2) 构 造 
pr = О (C-2-9) 


这 里 =. 的 选取 使 得 clz, 尖 0. 
(3) 解 关于 的 方程 
ail yk +Арь y1) = б 


得 到 
b} — А, br — Д, 
А = 7 = р С-2-10 
i akpi сїт ( ) 
这 里 Д. = а (уь — уң). 
(4) 令 
Ук+1 = Yk + А„рЕь (С-2-11) 
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(5) 校 正 
U; +1 = ОУ, (С-2-12) 
这 里 Vi 是 (n -Е+1) х (n-k) INRE, 且 满 足 
Vie, =0 (С-2-13) 
由 (C-2-5)、(C-2-7)、(C-2-13) 式 有 
alUiri=alU Ve=0 (j=1,2,.…,k) (C-2-14) 
由 于 У, 列 满 秩 , 则 (7, ;| 也 列 满 秩 . 这样 得 到 (C-2-6) 式 的 解 集 
Skei = {ук+ + Urriz, ЄК" | (C-2-15) 


有 各 种 方法 选取 V,, 这 里 使 用 与 列 主 元 Gauss 消去 法 或 QR 分 解 相对 应 的 取 法 , 即 通 
过 对 с, 的 Gauss 变换 或 Householder 变换 来 选取 У,. 
如 果 对 сь 作 Gauss 变换 , 则 应 先 选 主 元 , 交换 U 中 的 列 , 使 得 с, 中 的 第 一 个 分 量 w 为 
lar|=max{|a;|,i=k,-…, nt (C-2-16) 
үт 
设 мт = |0, ны, ©, Р = (0, m+s ть), W Gauss 初等 下 三 角 变 换 
VT=]- mef 


使 得 УТс,= ae 划 去 V 的 第 一 列 就 可 得 到 V: 


一 72K+1 АЫ 一 т, 
1 
У = . (С-2-17) 
1 
这 时 , U, 总 可 以 表示 成 
Sik 2. 51, 
Ш= | ` (С-2-18) 
Sk—1k 7 Sk-1n 
І) 


当选 主 元 时 , 需 交换 U, 的 列 .为 了 使 1,- ,+1 形式 不 变 , 仅 需 交换 自 变 量 x 的 与 之 相对 应 的 
两 个 分 量 之 间 的 次 序 . 


利用 (C-2-18) 式 不 难得 到 ,求解 (C-2-1) 式 需 广 n? 次 乘法 运算 , 这 与 列 主 元 Gauss 消去 


法 相同 ;但 其 存储 量 仅 为 万 ,而 列 主 元 Gauss 消去 法 的 存储 量 为 n. 
如 果 对 с, 作 Householder 变换 , ДХ 
V=I-x uu" 


这 里 w= с, + оер, с = ѕірп(ар) 1 сь || ‚т=з [а 12. 15 V 的 第 一 列 可 得 Vi .事实 上 ,这 


种 方法 相当 于 对 (a1, аз, …, av) 的 QR 分 解 , 但 不 存储 К, ВИТЕ а 个 元 素 ， 
如 果 使 用 及 (xz) 的 差 商 表示 a, 由 算法 1 所 得 到 的 结果 与 通常 的 离散 Newton 法 完全 
相同 ， 
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DEJE atA gA RAI Newtoni A 


如 果 F (ri) PERDERE, 可 以 通过 下 面 的 方法 在 零 空间 上 进行 离散 , 从 而 使 函数 什 








的 计算 量 得 以 减少 , 
在 算法 1 中 , 使 用 差 商 代替 导数 来 计算 Ular I 0, = (ubb и„), Ж 
ОТар= (ид (у), s ufka D (C-2-19) 
使 用 方向 差 商 
Ао _ Aly 130) — (у) (у= А, =, n) (С-2-20) 
代替 方向 导数 xj (у) (у А, п), 
т 
= ал A (С-2-21) 


Д, = akl yr- yi) (621), 8 





Yk T Уу Sk, и; = || 2 | (С-2-22) 
用 
= | sh | | (С-2-23) 
代替 fx (y1) sk- 
由 (C-2-10) 式 和 b= 一 f(y1) 有 
和 = 二 (GD A) (C-2-24) 


сш 
为 了 进一步 提高 算法 的 效能 , 可 以 选取 适当 的 н, 采用 r 步 重新 计算 一 次 Jacobi ВЕ 
F (ri) ЎИЗ 1, 这 等 价 于 多 步 重新 计算 一 组 р,()=1,2,+-.»).1Й r= ar, ЖЕ (т)Ж 
变 ,得 到 序列 设 为 xz!(41=1,2,…,r), 为 了 实用 起 见 , 设 可 变 , 并 采用 如 下 的 准则 
ПЕС) | <В ЕС) | , BECO,1) (C-2-25) 
来 决定 的 取 值 . 当 (C-2-25) 式 成 立时 , 可 重新 使 用 前 一 组 p. 
综 上 所 述 , 完整 的 零 空间 上 的 离散 Newton 法 如 下 . 





算法 2 
E y= r; ULI=1,ri=x;,l=0,k=1. 
(2) 计 算 方向 差 商 . 
сь = (ар, ак, а, ) 7 
这 里 
(2; thuj) ~ i . 
а= МӘ Ао) Gok on) (С-2-26) 
„Л БЛ МАГ; Æ 0, 的 列 向 量 . 
(3) 选 取 z,, 使 得 cle, 0. 


(4) 计 算 pi = Uzr. 
(5) =1, ЖД, = 0; X} k >1, Ф s= у-у, и, = | a l? 
Sk 
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a 10611 ^а) = (х) | s | 


(АО) + А) (С-2-27) 


T, 
人 类 之 人 





Àr 


Yr +1 = Yk T АЙЕ 
(6)Ж k= n 则 转 (9). 
(7) 构 造 (n - +1) x (n БӘЯНЕ Vi, 使 得 Vkc =0. 
(8) 校 正 
Ur +1 = ОУ, 
置 k =k+1, 转 (2). 
(O) E yna r 
(10) BE (0,1), #1 FCD 8I Fri) 1, WE у= xz, 按 (5) 中 的 公式 依次 
计算 y,,…, у„+, Ж / = +1, (9); ЛИЕ. 


тї, {=0. 
Жам үэ 
= +1, (1). 
算法 2 实际 上 可 以 看 成 求解 如 下 的 线性 方程 : 
Е(т,)+ А(т,АҺ)(\т-т)=0 (С-2-28) 
HA 
lim | F Cr) -Alri h) || =0 (C-2-29) 


由 (C-2-29) 式 可 知 , 当 h 一 0 时 ,算法 2 就 是 通常 的 Newton 法 .而 当 h 一 0 时 ,Brown 77 
法 求解 的 方程 是 (C-1- 10),(C-2-29) 式 则 不 成 立 , 从 而 得 不 到 通常 的 Newton 方程 , 在 解 点 
附近 只 是 Newton 方程 的 一 个 近似 . 

相对 于 F(x ) 的 模 长 而 言 , Newton 方向 是 一 个 下 降 方 向 ,适当 地 选取 步 长 , 算法 2 可 以 
有 大 范围 的 收敛 性 质 . 而 Brown 方法 显然 不 具有 这 一 性 质 . 

在 非 线 性 方程 组 中 , 如 果 其 中 部 分 方程 是 线性 方程 , 不 妨 设 f1(x),…, fi -1(7) 是 线性 
的 , 这 时 用 零 空间 法 求解 Newton 方程 , 仅 需 在 流 形 Si = | yi + Ов, Є Rt ЕЖЕ 
线性 方程 组 filr) =k, n). 相对 通常 的 Newton Ж, 其 效能 也 得 到 了 提高 , 如 下 例 : 


f(x)= —(я+1)+уху+ Уа, j=l, e,n 1 fa(r)= -1+ П (С-2-30) 
\ T 
， = 50, ИНЖ E o 1] ,用 双 精 度 对 前 ，- 1 个 线性 方程 一 次 选 代 , 产生 了 一 维 流 


Ж S, = 1y,+ Usz,zE€ RI. 在 一 维 流 形 S 上 求解 户 (z)=0, 仅 9 次 迭代 得 到 解 xz, 其 精 
EA || Е(2*) 12107". | 


三 ,数值 检验 
(H) 


132 





四 、 收 剑 性 讨论 


( 略 ) 
参考 文献 
( 略 ) 


线性 方程 组 的 一 类 离散 的 Newton 算 法 
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( 原 载 ( 计 算数 学 第 二 十 卷 第 一 期 , 1998) 
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